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机 器 学 习 可 用 来 处 理由 用 户 产生 的 、 数 量 不 断 增 长 的 Web 数据 。 
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Python 语言 、Django 框架 开发 一 款 Web 商业 应 用 ， 以 及 如 何 用 一 些 
i Csklearn, scipy. nltk #0 Django 等 ) 处 理 和 分 析 应 用 所 生成 或 使 用 的 数据 。 








本 书 不 仅 涉 及 机 器 学 习 的 核心 概念 ， 还 介绍 了 如 何 将 数据 部 署 到 用 Django fi 
NH. hi Web、 文 档 和 服务 器 端 数据 的 挖掘 和 推荐 引擎 的 措 建 方法 。 

本 书 适 合 有 志 于 成 为 或 刚刚 成 为 数据 科学 家 的 读者 学 习 ， 也 适合 对 机 器 学 习 、Web 数 
据 挖掘 等 技术 实践 感 兴 趣 的 读者 参考 阅读 。 
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机 器 学 习 是 什么 ? 2016 年 ， 无 论 参 加 大 会 、 研 讨 会， 还 是 接受 采访 ， 很 多 人 都 让 我 给 

机 器 学 习 下 个 定义 。 人 们 对 机 器 学 习 是 什么 ， 抱 有 诸多 疑问 。 理 解 这 一 新 鲜 事 物 可 能 为 生 
活 带 来 的 潜在 影响 以 及 它 日 后 对 我 们 有 何 种 意义 之 前 ， 天 性 要 求 我 们 先 给 出 其 定义 。 
跟 其 他 陡 升 为 显 学 的 学 科 类 似 ， 机 器 学 习 并 不 是 新 生 事物 。 科 学 社区 多 年 来 一 直 致 力 
于 研制 算法 ， 实 现 重 复 性 工作 的 自动 化 。 参 数 固定 的 算法 叫 作 静 态 算法 ， 其 输出 是 可 预测 
的 ， 输 出 只 是 输入 变量 的 函数 。 还 有 一 种 情况 ， 算 法 的 参数 是 动态 变化 的 ， 算 法 的 输出 是 
外 部 因素 《最 常见 的 是 同一 算法 先前 的 输出 ) 的 函数 ， 这 种 算法 叫 作 动态 算法 ， 其 输出 不 
仅仅 是 输入 变量 的 函数 。 动 态 算法 是 机 器 学 习 的 支柱 : 从 先前 迭代 生成 的 数据 中 ， 学 习 到 
一 组 规则 ， 以 改善 之 后 的 输出 。 
科学 家 、 开 发 人 员 和 工程 师 研究 和 使 用 模糊 逻辑 、 神 经 网 络 和 其 他 类 型 的 机 器 学 习 技 
术 已 有 多 个 年 头 ， 但 直到 今天 ， 随 着 机 器 学 习 应 用 离开 实验 室 ， 进 入 市 场 营销 、 销 售 和 人 金 
融 行 业 ， 这 门 学 科 才 流行 起 来 ， 基 本 上 来 讲 ， 需 要 重复 执行 相同 运算 的 活动 都 可 以 受益 于 
机 器 学 习 。 

机 器 学 习 的 影响 很 容易 理解 ， 它 将 给 我 们 的 社会 带 来 巨大 冲击 。 关 于 下 一 个 5 到 10 
年 ， 机 器 学 习 将 给 我 们 带 来 什么 ， 我 能 想到 的 最 佳 描述 方式 是 : 不 妨 回想 工业 革命 时 期 发 
生 了 什么 。 蒸 汽机 发 明之 前 ， 很 多 人 从 事 高 度 重 复 性 的 体力 工作 。 为 了 赚 取 少 得 不 能 再 少 
的 工资 ,他们 往往 要 冒 着 生命 危险 或 以 牺牲 健康 为 代价 。 工 业 革命 出 现 后 ， 社 会 得 以 发 展 ， 
机 器 接管 了 生产 过 程 的 重要 步骤 ， 这 带 来 了 产量 的 增加 ， 并 且 产 出 的 可 预测 性 更 强 和 更 稳 
定 。 与 之 相应 的 是 ， 产 品质 量 的 提升 和 新 工种 的 出 现 ， 操 控 机 器 这 类 新 兴 的 工作 取代 了 体 
力 劳 动 。 我 们 将 造物 的 责任 委托 给 由 我 们 设计 和 发 明 的 工具 , 这 在 人 类 历史 上 可 是 第 一 次 。 
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机 器 学 习 将 以 相同 的 方式 ， 改 变 执行 数据 运算 的 方式 ， 减 少 人 工 干预 的 需要 ， 将 优化 的 工 
作 交 给 机 器 和 算法 。 数 据 处 理 人 员 将 不 再 直接 控制 数据 , 而 是 通过 控制 算法 间接 控制 数据 。 
因此 ， 运 算 的 执行 速度 将 会 变 得 更 快 ， 更 少 的 人 将 能 控制 规模 更 大 的 数据 集 ， 错 误 将 会 减 
少 ， 从 而 结果 的 稳定 性 更 高 和 可 预测 性 更 强 。 跟 其 他 对 我 们 生活 产生 重大 影响 的 事物 一 样 ， 
爱 募 和 僧 恶 它 的 人 都 有 。 爱 暮 者 称赞 机 器 学 习 为 他 们 生活 带 来 便利 ， 民 恶 者 批评 ， 机 器 学 
习 方 法 要 有 效 ， 需 要 大 量 的 欠 代 ， 因 此 需要 大 量 数据 。 而 通常 来 讲 ， 我 们 “ 喂 给 ”算法 的 
数据 可 是 我 们 的 个 人 信息 "。 

事实 上 ， 机 器 学 习作 为 一 种 工具 得 以 迅速 发 展 ， 其 主要 应 用 在 于 提升 市 场 营销 和 顾客 
支持 的 效率 。 为 顾客 提供 个 性 化 服务 ， 促 使 他 们 购买 而 不 只 是 浏览 ， 或 让 他 们 高 兴 而 不 是 
失望 ， 需 要 对 顾客 有 着 深入 的 理解 。 

例如 ， 就 市 场 营销 而 言 ， 如 今 市 场 营销 人 员 开始 考虑 位 置 、 设 备 、 购 买 历 史 、 访 问 过 
的 网 站 、 天 气 状况 等 信息 〈 仅 举 几 个 例子 ) 来 决定 公司 是 否 向 一 组 特定 顾客 展示 广告 。 
通过 电视 或 报纸 这 样 无 法 追踪 的 媒体 传播 营销 信息 的 日 子 已 然 成 为 遥远 的 过 去 。 如 今 ， 
市 场 营销 人 员 希 望 知道 谁 点 击 和 购买 了 他 们 商品 等 一 切 信息 ， 他 们 好 优化 创意 和 投入 ， 合 
时 分 配 预算 ， 以 充分 利用 他 们 手中 的 资源 。 这 就 要 求 提供 前 所 未 有 的 高 度 个 性 化 服务 ， 若 
使 用 合理 ， 可 以 让 顾客 感到 他 们 是 受 尊重 的 个 体 而 不 只 是 某 一 社会 人 口 学 分 组 的 一 部 分 。 

机 器 学 习 既 吸引 人 又 充满 挑战 ， 但 无 疑 下 一 个 十 年 的 赢家 ， 将 会 是 那些 能 够 理解 非 结 
构 化 数据 ,并且 能 够 基于 这 些 数据 以 可 扩展 的 方式 做 出 决策 的 公司 或 个 人 : 除了 机 器 学 习 ， 
我 还 没有 看 到 哪 种 方式 能 实现 这 样 的 伟业 。 

Andrea Isoni 的 这 本 书 朝 这 个 世界 迈 出 了 一 步 ; 读 它 就 好 像 是 向 下 窥视 兔子 的 洞穴 ， 你 
能 从 中 看 到 用 机 器 学 习 技术 实现 的 几 个 应 用 ， 作 者 将 机 器 学 习 技术 整合 到 Web 应 用 中 。 访 
问 用 机 器 学 习 技术 创建 的 个 性 化 服务 网 站 ， 顾 客 能 从 中 体验 到 为 他 们 个 人 提供 的 优化 过 的 































































































































































































































































































































































































































































































如 果 你 想 为 日 后 的 职业 生涯 提前 做 好 准备 ， 该 书 是 你 必须 要 读 的 ， 下 一 个 十 年 跟 数据 
打交道 的 任何 人 若 想 成 功 的 话 ， 都 需要 熟练 掌握 这 些 技 术 。 























Davide Cervellin, (gingdave 


eBay 公司 EU Analytics 部 门 负责 人 





O 言 外 之 意 ， 隐 私 受 到 威胁 。 一 一 译 者 注 
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译 者 序 











20 ERT, IBM 研制 的 深蓝 计算 机 勉强 















































战胜 俄罗斯 棋 王 卡 斯 帕 罗 夫 ， 它 在 体力 上 的 优势 
似乎 比 智 力 方面 更 明显 。 但 刚刚 过 去 的 这 一 年 ， 谷 歌 的 AlphaGo 计算 机 程序 打败 了 围棋 高 





















































手 李 世 石 ， 它 的 升级 版 Master 威力 更 是 了 得 , 横扫 中 日 苦 高 手 ， 它 擅长 走 快 棋 ， 招 法 狠毒 ， 


令 人 类 高 手 胆 颤 。 由 此 可 见 ， 近 年 来 ， 人 工 智 能 技术 随 着 硬件 、 大 数 


发 展 ， 取 得 了 长 足 的 进步 。 






































四 、 机 器 学 习 技术 的 























机 器 学 习 技术 作为 人 工 智能 的 一 个 子 领 域 ， 研 究 和 应 用 热潮 不 减 ， 研 讨 会、 学 习 班 和 











创业 项 目 层出不穷 ， 国 内 学 者 入 选 AAAI 




















Fellow; 该 领域 的 书籍 一 印 
劫 驾驶 、 机 器 翻译 、 智 能 客服 、 物 流 无 人 机 和 家 居 、 医 疗 、 教 育 机 器 人 等 各 种 应 用 不 断 推 

















BED; 人 脸 识 别 、 自 



































向 市 场 。 从 以 上 种 种 表现 来 看 ， 我 们 处 在 人 工 智能 时 代 的 风口 和 前 多。 作为 该 领域 的 从 业 
者 , 我们 不 能 满足 于 看 热 曾 ， 应 努力 掌握 背后 的 核心 技术 一 一 机 器 学 习 ， 力求 弄 懂 该 技术 ， 






































舞 的 是 ， 大 数据 产业 发 展 已 上 升 到 国家 战 




















本 书 讲解 的 是 商业 网 站 数据 分 析 和 挖 














并 努力 探索 其 他 可 能 的 实现 人 工 智 能 的 方法 ， 把 人 类 智 意 的 边界 向 


EU 


ij 














进一步 。 更 令 人 鼓 

















各 层面 ， 我 国 要 实现 从 数据 大 国 向 数据 强国 的 转 
变 ， 需 要 一 批 掌握 了 数据 挖掘 、 机 器 学 习 等 相关 技术 的 人 才 。 












































机 器 学 习 的 基本 概念 、Python 机 器 学 习 工 





if (NumPy、pandas 和 











别 讲解 了 无 监督 和 有 监督 机 器 学 习 理 论 ， 每 种 方法 都 给 出 形式 化 
































昌 所 用 到 的 机 器 学 习 理 论 和 技术 。 作 者 先 介绍 了 














matplotlib 等 )， 接 着 分 























描述 ， 其 间 用 到 了 大 量 概 











率 统计 、 线 性 代数 等 数学 知识 ， 比 如 最 小 二 乘 、 相 关 性 、 贝 叶 斯 概率 和 奇异 值 分 解 等 。 作 
者 的 统计 学 背景 在 这 一 点 上 得 到 了 很 好 的 体现 。 这 部 分 数学 知识 能 够 较 好 地 满足 有 志 于 深 














入 学 习 的 读者 的 需要 ， 水 平 高 的 读者 可 以 从 中 感受 机 器 学 习 模型 
大 类 机 器 学 习 理论 , 作者 又 从 Web 结构 和 内 容 两 个 方面 讲解 了 Web 123 






































的 数学 魅力 。 介 绍 完 这 两 








加 技术 ; 介绍 了 信息 
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检索 模型 、 主 题 











1 取 模 型 LDA。 讲 解 完 机 器 学 习 弄 








译 者 序 2 


E 论 和 技术 之 后 ， 作 者 引入 了 为 Web 开发 


完美 主义 者 准备 的 Django 框架 ， 让 昔日 在 幕后 默默 奉献 的 数据 分 析 高 手 有 机 会 走 到 台 前 ， 
































自己 研制 的 

















Django 框架 搭建 反 


法 驱动 


Sk Web 产品 。 作 者 




















程 师 的 好 
的 应 用 范 
在 机 器 学 习 领 

"UA, R 
较 大 差距 ， 但 
反馈 ， 日 后 再 




































































自己 的 计 


稍 加 打磨 
图 大 的 改进 


机 上 搭 
开发 的 产品 了 ， 你 具备 了 向 全 球 
我 刚刚 上 线 的 Web df 








朋友 。 数 据 分 析 师 





E 荐 系统 和 影 记 
] Python 就 能 从 头 到 


至 少 






































感谢 人 民 邮 i 








E H RC 








导 运 行 了 第 1 章 的 代码 ， 并 指出 了 原 ; 
文 ， 她 本 人 也 是 一 本 Python K 
祝 他 学 有 所 成 。 翻 译 过 程 
海 健康 学 院 姜 萌 等 朋友 请 教 过 问题 ; 我 旁听 了 北大 的 统计 学 基础 、 随 机 过 程 等 课程 ， 
了 很 多 统计 学 概念 ， 参 考 了 市 面 上 现 有 的 多 本 著作 ， 共 
CSDN 等 网 站 的 文章 ， 在 此 一 并 表示 衷心 的 感谢 。 感 谢 西 





习 数 据 科 学 知识 ， 














学 杨 刘洋 同学 等 读者 对 而 



































评 指 正 。 





HE] 
们 的 辛勤 劳动 换 来 的 ， 因 此 
本 人 学 识 有 限 


























带领 我 们 利 





























前 面 讲 解 的 





















































。 此 外 ， 限 于 篇 幅 ， 


























j 户 提供 




















可 作为 一 个 最 小 可 行 怕 























UE. 


























法 和 挖掘 技术 ， 用 
分 析 系 统 。 学 到 这 里 ， 你 会 不 由 地 感叹 Python 真是 全 栈 工 
尾 打 造 一 款 智能 Web 产品 ， 
围 之 广 。 年 初 , Facebook 更 是 开源 了 PyTorch 深度 学 习 框 架 , 进一步 巩 
成 的 地 位 。 
门 最 终 开 发 出 的 产品 还 比较 初级 ， 离 最 终 面向 用 户 的 产品 在 用 户 体验 上 ; 
FE 产品 (MVP) 先行 投入 市 场 ， 收 集 
作者 也 没有 讲 怎么 将 系统 部 署 到 生产 服务 器 。 
感 兴 趣 的 读者 可 以 试 试 Heroku、SAE 等 云 应 用 平台 ， 也 可 以 尝试 用 Apache、mod_wsgi 
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见 Python 
J Python 














还 有 
]P 















































服务 器 。 你 可 能 还 需要 申请 一 个 域名 。 这 样 ， 你 就 可 以 向 朋友 推荐 
智能 Web 产品 的 能 力 ! m 
E 荐 系统 ! 用 机 器 学 习 算 法 驱动 的 哦 ! 
的 陈 避 康 编辑 等 为 本 书 多 




















Wi 8 








B up poke. 


H 
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这 








a pu È 





出 版 辛勤 付出 的 各 位 朋友 。 读 者 罗 
及 译 者 注 中 的 几 处 问题 。 


书 的 译 者 。 泰 安 读者 陈 新 光 阅 读 了 第 6 章 译文 ， 他 正 努 力学 


阅读 了 第 2 章 译 




















P， 我 向 北京 大 学 冷 含 莹 、 








也 更 加 宝贵 。 



































ZIN 





中 包括 大 名 易 易 的 西瓜 书 ， 
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[ 作 的 支持 。 最 后 ， 感 谢 我 的 家 人 ， 我 翻译 图 


[ 业 大 学 的 李 























， 且 时 间 仓 促 ， 书 中 翻译 错误 、 不 当 和 琉 漏 之 处 在 所 难 
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京 大 学 范 超 、 上 
了 解 
查询 了 
刚 老 师 、 重 庆 大 
书 的 时 间 是 用 他 





















































免 ， 敬 请 读者 批 


杜 春晓 
2017 年 2 月 
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数据 科学 ， 尤 其 是 机 器 学 习 ， 成 为 当下 科技 商业 领域 人 们 热 议 的 议题 。 这 类 技术 可 用 
来 处 理 用 户 产生 的 、 数 量 在 不 断 增长 的 数据 。 本 书 将 讲解 如 何 用 Python 语言 、Django 框架 
开发 一 款 Web 商业 应 用 ， 还 将 讲解 如 何 用 一 些 现成 的 库 (sklearn、scipy、NLTK 和 Django 
等 ) 处 理 和 分 析 《〈 通 过 机 器 学 习 技术 ) 应 用 生成 或 使 用 的 数据 。 


本 书 主要 内 容 






























































第 1 章 ，Python 机 器 学 习 实 践 入 门 ， 讨 论 机 器 学 习 的 主要 概念 以 及 数据 科学 专业 人 士 

用 Python 处 理 数 据 所 使 用 的 几 个 库 。 

第 2 章 , 无 监督 机 器 学 习 ， 讲 解 为 数据 集 分 徐 和 从 数据 中 抽取 主要 特征 所 用 到 的 算法 。 

第 3 章 ， 有 监督 机 器 学 习 ， 讲 解 预测 数据 集 标签 最 常用 的 有 监督 机 器 学 习 算 法 。 

第 4 章 ，Web 挖掘 技术 ， 讨 论 Web 数据 的 组 织 、 分 析 和 从 中 提取 信息 的 主要 技术 。 
章 ， 推 荐 系统 ， 详 细 介绍 当今 商业 领域 所 使 用 的 几 种 最 流行 的 推荐 系统 。 

第 6 章 ， 开 始 Django 之 旅 ， 介 绍 开发 Web 应 用 所 用 到 的 Django 的 主要 功能 和 特点 。 
章 ， 电 影 推荐 系统 Web 应 用 ， 将 介绍 的 机 器 学 习 概 念 付 诸 实践 ， 动 手 实现 为 Web 


J: 
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第 8 章 ， 影 评 情感 分 析 应 用 ， 再 次 通过 一 个 实例 ， 使 用 讲述 的 知识 ， 分 析 在 线 影 评 的 情感 
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本 书 的 阅读 前 提 


读者 应 该 准 

















备 一 台 计 算 机 , 装 好 Python 2.7, 能 够 运行 (和 修改 ) 书 中 各 章 讲 解 的 代码 。 




















本 书 的 目标 读者 








任何 有 一 定编 程 经 验 (Python ) 和 统计 学 背景 ， 对 机 器 学 习 感 兴趣 和 /或 希望 从 事 数据 
科学 职业 的 读者 均 可 从 本 书 受益 。 


排版 约定 


















































本 书 使 用 不 同 的 文本 样式 来 区 分 不 同类 别 的 内 容 。 以 下 是 常用 样式 及 其 用 途 说 明 。 


















































正文 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、URL 地 址 、 
] 户 输入 的 内 容 和 Twitter 用 户 名 显示 方式 如 下 : 


“在 终端 输入 以 下 命令 ， 安 装 Django 这 个 库 : sudo pip install django。 























» 





代码 块 样式 如 下 : 


INSTALLED APPS = ( 





'rest framework', 


'rest framework swagger', 


'nameapp', 


) 


所 有 的 命令 行 


输入 或 输出 使 用 下 面 这 种 样式 : 








python manage.py migrate 




















新 的 术语 和 重要 的 词语 使 用 黑体 。 出 现在 屏幕 上 的 词语 ， 例 如 菜单 或 对 话 框 里 ， 样 式 如 下 









































“如 你 所 见 ， 页 面 上 有 两 个 输入 框 ， 输 入 姓名 和 邮箱 后 ， 单 击 “ 添 加 ， 将 其 添加 到 数据 库 ”。 




















RK 


此 图 标 表示 警告 或 重要 信息 。 | 
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M 
| 总 此 图 标 表示 提示 或 技巧 ， | 


读者 反馈 











我 们 热忱 地 欢迎 读者 朋友 给 予 我 们 反馈 ， 告 诉 我 们 你 对 于 这 本 书 的 所 思 所 想 你 喜 
欢 或 是 不 喜欢 哪些 内 容 。 大 家 的 反馈 对 我 们 来 说 至 关 重 要 ， 将 帮助 我 们 确定 到 底 哪些 内 容 
是 读者 真正 需要 的 。 
如 果 你 有 一 般 性 建议 的 话 ， 请 发 邮件 至 feedback@packtpub.com， 请 在 邮件 主题 中 写 清 
书 的 名 称 。 
如 果 你 是 某 一 方面 的 专家 ， 对 某 个 主题 特别 感 兴趣 ， 有 意向 自己 或 是 与 别人 合作 写 
本 书 ， 请 到 www.packtpub.com/authors 查阅 我 们 为 作者 准备 的 帮助 文档 。 


px 







































































































































































为 自己 拥有 一 本 Packt 出 版 的 书 而 自豪 吧 ! 为 了 让 你 的 书 物 有 所 值 ， 我 们 还 为 你 准备 
了 以 下 内 容 。 


下 载 示 例 代码 



























































如 果 你 是 从 wwwpacktpub.com 网 站 购买 的 图 书 ， 用 自己 的 账号 登录 后 ， 可 以 下 载 所 有 已 购 
图 书 的 示例 代码 。 如 果 你 是 从 其 他 地 方 购买 的 ， 请 访问 http:/www.packtpub.com/support 网 站 并 
注册 ， 我 们 会 用 邮件 把 代码 文件 直接 发 给 你 。 也 可 以 访问 www.epubit.com.cn 来 下 载 示例 代码 。 


代码 文件 下 载 步骤 如 下 。 
1. 用 邮箱 和 密码 登录 或 注册 我 们 的 网 站 。 

2. 鼠标 移动 到 页 面 顶 部 的 SUPPORT 选项 卡 下 。 
3. 单 击 Code Downloads & Errata. 

4. 在 搜索 框 Search 中 输入 书 名 。 

5. 选择 你 要 下 载 代 码 文件 的 图 书 。 
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4 ”前言 


ul 





6. 从 下 拉 














7. 单 击 Code Download 下 载 代码 文件 。 














菜单 中 选择 你 从 何 处 购买 该 书 。 























你 还 可 以 在 Packt Publishing 网 站 图 书 详情 页 ， 单 击 Code Files 按钮 下 载 代码 文件 。 在 
Search 搜索 框 中 输入 书 名 进行 搜索 可 找到 该 书 的 图 书 详情 页 。 请 注意 你 需要 登录 网 站 。 


代码 下 载 下 来 之 后 ， 请 确保 用 以 下 解压 工具 的 最 新 版 本 进行 解压 或 抽取 文件 : 



















































































。 Windows 用 户 : WinRAR / 7-Zip: 

















e Mac 


1P: Zipeg / iZip / UnRarX; 














e Linux 











]P: 7-Zip/ PeaZip. 


本 书 的 代码 包 在 GitHub 上 也 存储 了 一 份 : https://github.com/PacktPublishing/Machine- 


Learning-for-the 

















-Web。 我 们 很 多 其 他 图 书 和 视频 的 代码 包 也 存储 到 了 GitHub E: 





https://github.com/PacktPublishing/。 将 它们 检 出 到 本 地 。 
下 载 本 书 配套 PDF 文件 


我 们 还 为 你 准备 了 一 个 PDF 文件 ， 该 文件 包含 书 中 的 所 有 屏幕 截图 / 图 表 。 这 些 彩 图 能 弥 


















































补 书 中 黑白 图 像 的 不 足 ， 有 助 于 你 理解 本 书 内 容 。 该 文件 的 下 载 地 址 为 http:/www.packtpub.comy/ 
sites/default/files/downloads/MachineLearningfortheWeb ColorImages.pdf. 











勘误 表 














的 善举 足以 减少 
果 你 发 现任 何 错 
































即使 我 们 竭尽 所 能 来 保证 图 书 内 容 的 正确 性 ， 错 误 也 在 所 难免 。 如 果 你 在 我 们 出 版 的 任何 
一 本 书 中 发 现 错 误 一 一 可 能 是 在 文本 或 代码 中 





























倘若 你 能 告诉 我 们 ， 我 们 将 会 非常 感激 。 你 
其 他 读者 在 阅读 出 错位 置 时 的 纠结 和 不 快 , 帮助 我 们 在 后 续 版 本 中 更 正 错误 。 如 
误 ， 请 访问 http:/www.packtpub.com/submit-errata， 选 择 相 应 书籍 ， 单 击 “Errata 

































































Submission Form” 链 接 ， 输 入 错误 之 处 的 具体 信息 。 你 提交 的 错误 得 到 验证 后 ， 我 们 就 会 接受 
你 的 建议 ， 该 处 错误 信息 将 会 上 传 到 我 们 网 站 或 是 添加 到 已 有 勘误 表 的 相应 位 置 。 




















版 权 保护 






































访问 https:/www.packtpub.com/books/content/support， 在 搜索 框 中 输入 书 名 ， 可 查看 该 
书 已 有 的 勘误 信息 。 这 部 分 信息 会 在 Errata 部 分 显示 。 














所 有 媒体 在 互联 网 上 都 面临 的 一 个 问题 就 是 侵权 。 对 Packt 来 说 ， 我 们 严格 保护 我 们 
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的 版 权 和 许可 。 如 果 你 在 网 上 发 现 针对 我 们 出 版 物 的 任何 形式 的 盗版 产品 ， 请 立即 告知 我 





们 地 址 或 网 站 名 称 ， 以 便 我 们 进行 补救 。 
请 将 盗版 书籍 的 网 址 发 送 到 copyright@packtpub.com。 

















如 果 你 能 这 么 做 ， 就 是 在 保护 我 们 的 作者 ， 保 护 我 们 ， 只 有 这 样 ， 














质 内 容 回馈 像 你 这 样 热心 的 读者 。 






































我 们 才能 继续 以 优 


你 对 本 书 有 任何 方面 的 问题 ， 都 可 以 通过 questions@packtpub.com 邮箱 























们 也 将 尽 最 大 努力 来 帮 你 答疑 解 惑 。 
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重 版 权 











联系 我 们 ， 我 








作者 简介 











Andrea Isoni 博士 是 一 名 数据 科学 家 、 物 理学 家 ， 他 在 软件 开发 领域 有 着 丰富 的 经 验 ， 
在 机 器 学 习 算法 和 技术 方面 ， 拥 有 广博 的 知识 。 此 外 ， 他 还 有 多 种 语言 的 使 用 经 验 ， 如 
Python、C/C++、Java、JavaScript、C#、SQL、HTML。 他 还 用 过 Hadoop 框架 。 


译 者 简介 


杜 春 晓 ， 英 语 语言 文学 学 士 ， 软 件 工 程 硕士 。 其 他 译 著 有 《Python 数据 挖掘 入 门 与 实 
E) (Python 数据 分 析 实 战 》 和 《电子 达 人 一 一 我 的 第 一 本 Raspberry Pi 入 门 手 册 》 等 。 新 
浪 微 博 : QE "E. 
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技术 审 稿 人 简介 




















Chetan Khatri 是 一 名 数据 科学 研究 员 , 他 共有 4 年 半 的 研究 和 开发 经 验 。 他 在 Nazara 


Technologies Pvt. 





业务 从 事 数 据 科 学 











Ltd 公司 担任 数据 和 机 器 学 习 方 面 的 首席 工 











程 师 ， 主 导 在 游戏 和 电信 订阅 
































实践 。 他 曾 在 一 家 顶尖 的 数据 公司 和 印度 



































四 大 公司 其 





中 一 家 工作 ， 管 理 














数据 科学 实践 平台 和 包 





后 者 的 资源 团队 。 在 这 之 前 ， 他 曾 作 


























Corporation. [hj 

















他 积极 以 多 





会 议 上 介绍 数据 科学 相关 知识 ， 还 援助 社区 一 个 数据 平台 














I 























方式 为 社会 做 贡献 ， 其 中 包括 为 大 二 学 生 














。 他 在 学 术 丰 


ERF R & 
有 印度 喀 奇 大 学 (KSKV Kachchh University) 的 计算 机 科学 硕士 学 位 ， 
辅修 数据 科学 ， 是 该 学 校 的 金牌 得 主 。 


做 讲座 ， 在 学 术 以 及 其 他 各 种 








D Lab 和 Eccella 





















































两 方面 均 有 着 相关 的 专业 知识 。 他 喜欢 参加 数据 科学 马拉松 比赛 。 他 参 














区 一 一 PyKutch。 他 目前 











理 数据 。 











究 和 行业 最 佳 实践 
与 发 起 了 Python 社 














E 在 探究 深层 神经 网 络 和 增强 学 习 ， 














c 














感谢 喀 奇 大 学 计算 机 科学 系 主体 






































的 正确 道路 ， 并 给 予 宝贵 的 指导 意见 。 同 样 把 感谢 送 给 我 杀 
Pavan Kumar Kolluru 是 一 名 交叉 学 科 工程 师 ， 他 是 大 数据 、 数 字 图 像 和 处 理 、 遥 感 








〈 高 光谱 数据 和 图 
































学 习 使 用 六 


爱 的 家 人 。 








F 行 和 分 布 式 计算 管 














E Devji Chhanga 教授 , 感谢 他 引领 我 走 上 数据 科学 研究 




















像 ) 方面 的 专家 ， 精 通 Python、R 和 MATLAB 编程 。 他 的 研究 重点 在 于 























如 何 用 机 器 学 习 技 术 、 编 制 算法 处 理 大 数据 。 


























他 目前 正在 探索 如 何 找到 不 同学 科 之 间 的 联系 ， 以 降低 




















方面 的 难度 。 



























































数据 处 理 过 程 在 计算 和 自动 化 

















作为 一 名 数据 《图 像 和 信和 号) 处 理 方面 的 专业 人 士 和 老师 ， 他 一 直 在 处 理 多 / 高 光谱 


数据 ， 该 项 工作 使 得 他 在 数据 处 理 、 信 息 





















































| 取 和 分 割 方面 积累 了 很 多 专业 知识 。 他 用 到 的 
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2 技术 审 稿 人 简介 
高 级 处 理 技术 有 OOA、 随 机 集 和 马尔 可 夫 随 机 场 。 


作为 一 名 程序 员 和 教师 , 他 专注 于 Python 和 R 语言 , 他 执教 于 企业 和 教育 行业 的 兄弟 
会 。 他 培训 过 多 批 学 员 ， 教 他 们 使 用 Python 和 各 种 包 信 号 、 图 像 和 数据 分 析 等 )。 


作为 一 名 机 器 学 习 研 究 员 / 教练 ， 他 是 分 类 (有 监督 和 无 监督 )、 建 模 和 数据 理 
归 以 及 数据 降 维 方面 的 专家 。 他 曾 开 发 出 一 套 大 数据 (图 像 或 信号 ) 方面 的 新 型 机 器 学 习 
算法 ， 作 为 他 理科 硕士 阶段 的 研究 成 果 ， 该 算法 将 数据 降 维和 分 类 纳入 同一 框架 ， 这 为 他 
赢得 了 很 高 的 分 数 。 他 培训 过 多 家 大 型 公司 的 员工 ， 教 他 们 用 Hadoop 和 MapReduce 分 析 
大 数据 。 他 的 大 数据 分 析 专 业 知识 包括 HDFS、Pig、Hive 和 Spark. 


Dipanjan Sarkar 是 Intel 公司 的 一 名 数据 科学 家 。Intel 是 世界 上 最 大 的 半导体 公司 ， 
它 的 使 命 是 让 世界 更 加 连通 和 更 有 具 效率 。 他 主要 从 事 分 析 、 商 业 智 能 、 应 用 开发 和 构建 大 
规模 的 智能 系统 方面 的 工作 。 他 从 班加罗尔 的 印度 信息 技术 学 院 (IIT) 获得 信息 技术 硕士 
学 位 。 他 的 专业 领域 包括 软件 工程 、 数 据 科 学 、 机 器 学 习 和 文本 分 析 。 


Dipanjan 的 兴趣 包括 学 习 新 技术 、 数 据 科 学 和 最 近 的 深度 学 习 以 及 了 解 具有 站 覆 性 的 
初创 企业 动态 。 业 余 时 间 ， 他 喜欢 阅读 、 写 作 、 玩 游戏 和 看 情景 喜剧 。 他 写 过 一 本 关于 机 
器 学 习 的 书 R Machine Learning by Example, iz P H Packt Publishing 出 版 。 他 还 为 Packt 
Publishing 出 版 的 几 本 机 器 学 习 和 数据 科学 图 书 做 过 技术 评审 
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在 技术 行业 ， 分 析 和 欣 











开发 利 











可 能 具有 商业 价值 的 海量 信息 ， 














加 商业 数据 的 技能 了 
j 线 上 产生 的 数据 ， 以 改进 自 











身 业 务 ， 





























能 做 得 到 
特定 实 








解 这 些 算法 和 技术 ， 并 介 











FE 变 得 越 来 
或 将 数据 出 售 给 其 他 公司 














。 数 据 科 学 采用 机 器 学 习 技 术 将 数 所 
体 的 行为 。 这 些 算 法 和 技术 在 当今 以 技术 为 主导 的 业务 领域 是 必 不 可 少 的 。 本 书 讲 




















如 何 ; 
































技 
可 用 











R, 并 有 机 会 在 





Chttps:/docs.python.org/)， 阅 读 A. Bluman 的 
和 R. L. Berger 合 著 的 Statistical Inference, Ti 
代数 ， 可 阅读 G. Strang 所 写 的 Linear Algebra and Its Applications o 























mug 





越 重 要 。 


第 1 章 
Python 机 怖 学 习 实践 入 门 


若 有 线 上 业务 ， 可 




















。 重 组 或 分 析 这 些 














只 有 掌握 专业 知识 的 数据 科学 〈 或 数据 挖掘 ) 专业 人 士 才 


转化 为 模型 ， 以 便 预测 业务 领域 高 度 重 视 的 




































































年 其 部 署 到 真实 的 商业 环境 。 你 将 学 到 最 常 
系列 由 在 提高 商业 智能 








j 的 机 器 学 习 








的 练习 和 应 用 中 使 用 它们 。 从 本 书 学 到 的 技能 ， 
实际 工作 。 为 了 充分 掌握 书 中 所 讨论 的 各 个 主题 ， 我 们 希望 你 已 熟悉 Python 编程 语 
言 、 线 性 代数 和 统计 方法 。 

。 网 上 有 很 多 关于 这 些 主题 的 教程 和 课程 ， 但 我 们 建议 你 阅读 Python 官方 文档 
Elementary Statistics 以 及 由 G. Casella 
E 解 主要 的 统计 概念 和 方法 。 学 习 线 性 














本 章 作 为 入 门 章 节 , 目的 是 让 你 熟悉 Python 机 器 学 习 的 专业 人 士 所 使 用 的 更 为 高 级 的 














节 的 各 种 技术 。 








讲解 本 书 所 












































个 实例 ， 展 示 在 真实 场景 中 书 








] 库 之 前 ， 我 们 9 



































法 ， 并 在 练习 








1.1 机 器 学 习 常用 概念 
本 书 讨论 最 常用 的 机 器 学 习 外 
些 算法 ， 帮 你 理解 本 











Sub A PUR Sb eo» dy G3 4 SIG com) 专 享 尊重 上 





FJ Es H 
世 内 容 ， 我 们 先 大 体 看 下 几 个 常 上 
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反 权 




















库 和 工具 ， 比 如 NumPy、pandas 和 matplotlib， 帮 你 掌握 必要 技术 知识 ， 以 便 实现 后 续 章 
Et 来 曾 明 机 器 学 习 领 域 的 主要 概念 ， 并 通过 一 
儿 器 学 习 算法 如 何 给 出 有 用 的 预测 信息 。 




















日， 从 而 使 你 熟悉 它们 。 为 了 解释 这 
HEUS. Jaen 


介绍 。 


2 第 1 章 


首先 ， 若 要 为 机 器 学 习 
一 个 分 支 ， 从 模式 识别 、 人 工 智 能 和 计生 














作 是 数据 挖掘 工 


H 








够 从 先前 观测 的 数据 ， 通 过 可 调整 的 参数 〈 通 常 
的 程序 ， 为 了 改善 预测 结果 ， 将 参数 设计 为 可 自动 i 
> MFE Cgeneralize) 
HTH RRR). AE, W E 
! 行 为 。 机 器 学 习 方 法 常见 的 行业 应 月 












































Python 机 器 学 习 实 践 入 门 





定义， 一 个 较为 贴切 的 定义 是 ， 机 器 学 习 是 计算 机 科学 的 


























学 习 














|， 侧 重 于 用 数据 分 析 方 法 

















数据 的 内 在 结构 ，Tf 



































COCRO 和 计 
问题 所 用 术语 。 


机 视觉 。 既 已 给 日 








任何 学 习 问 题 都 始 于 


根据 数据 集 来 预测 。 每 个 个 体 
元 素 2 叫 作 特 征 〈feature)。 例 如 ， 








里 解 给 
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AC 


为 由 


理论 发 展 而 来 。 我 们 也 可 以 将 机 器 学 习 看 




















的 数据 。 该 学 科 的 目的 是 ， 开 发 能 
双 精 度数 值 组 成 的 数组 ) 进行 学 习 
整 的 。 计 算 机 用 这 种 方式 可 预测 某 
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1 不 





i f^ 








只 是 像 常见 的 数据 库 系统 那样 对 数值 
计算 统计 9 
上 有 垃圾 
该 学 科 的 定义 ， 我 们 接 下 来 更 详细 地 介绍 每 种 机 器 学 习 











关 ， 也 是 尝试 根据 先前 数据 预测 茶 
过滤 器、 搜索 引擎 、 光 


ML, ar If 


学 字符 识别 














个 包含 n 个 样本 个 体 的 数据 集 ， 未 知 数据 的 特性 〈properties ) 
































价格 。 二 手 车 数据 集 9 





























车 况 信 息 。 每 辆 车 i 还 有 一 个 与 之 对 应 的 
训练 样 例 (training example) H 








值 空间 。 为 解决 问题 选 
上 调试 。 训 练 完 成 后 ， 模 型 的 预测 性 
来 从 多 个 模型 中 选择 能 给 日 
率 (precision) ©. 通常 , 数据 集 的 50% 划 作 训 练 集 , 验证 集 和 测试 鲁 


练 集 
WUE 
实际 准确 
的 数据 。 


学 习 















































无 监督 学 习 ; 
的 目标 通常 为 ， 用 
到 维 数 更 少 的 空间 ( 盲 信号 分 离 人 


该 类 学 习 


(project) 









































同 点 。 








CD 原文 为 “computational statics”， 


© 分 量 一 一 译 者 注 
@ 精度 一 一 译 者 注 





























问题 可 分 为 两 大 类 (本 


Ph， 每 辆 车 i 


j 的 机 器 学 习 








通常 包含 一 个 以 上 的 数值 ， 
民 据 二 手 车 的 制造 时 间 、 颜 色 和 能 耗 等 车 况 
示 成 一 个 特征 向 量 xG)， 对 应 i 这 辆 车 的 颜色 、 能 耗 等 




















因此 它 是 一 个 向 量 。 向 量 的 组 成 


言 息 预 测 其 




























































































了 六 
RK 




















法 找 出 


























法 ， 





其 中 “statics” 应 为 statistics o 


标 ( 或 标签 ) 变量 y(i)， 即 二 手 车 的 价格 。 一 个 
H—o GG), y()) 组 成 。 由 为 个 数据 点 组 成 、 用 于 学 习 的 整个 
集合 叫 作 训练 集 {(x(i), y); i=1,…,N}。 符 号 x 表示 特征 (输入 ) 值 空间 ，?y 为 目标 输出) 
法 用 数学 模型 来 描述 ， 模 型 包含 一 些 参 数 ， 需 在 训 
E 能 用 另外 两 个 数据 集 来 评估 : 验证 
最 佳 结果 的 那个 ， 测 试 集 通 常用 来 决定 所 选用 模型 的 


























集 和 训练 集 。 
































则 各 使 





1 25% 











对 这 两 类 均 有 大 量 介 绍 )。 























例 通常 没有 目标 值 ， 所 以 无 法 直接 用 训练 数据 评估 模 
评估 簇 内 元 素 的 相似 度 以 及 簇 间 元 素 的 差异 程度 。 这 是 无 监督 和 有 监督 学 习 的 一 个 主要 不 











译 者 注 





给 定 的 训练 集 只 有 作为 输入 的 特征 向 量 x， 而 未 给 出 任何 相对 应 的 标签 。 
数据 中 的 相似 样 例 ， 或 将 数据 从 高 维 空间 映射 
比如 主 成 分 分 析 PCA )。 








因为 每 个 训练 样 
其 他 方法 ， 





























型 的 错误 率 ; 这 就 需要 使 
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。 有 上 监督 学 习 ”: 给 定 训练 集 的 每 个 个 体 是 一 对 作为 输入 的 特征 向 量 和 标签 。 该 类 学 
习 的 任务 是 推断 各 个 参数 ， 预 测 测 试 数据 的 目标 值 。 这 些 问题 可 进一步 分 为 : 
分 类 : 数据 的 目标 值 属 于 两 个 或 以 上 类 别 , 分 类 的 目标 是 学 习 如 何 预测 训练 集中 
未 标记 的 数据 的 类 别 。 分 类 是 一 种 离散 型 (与 之 对 应 的 是 连续 型 ) 有 监督 学 习 方 


o 


o 


本 书 第 2 章 集 中 介绍 无 监督 学 习 方法 ， 第 3 章 讨 论 最 常用 的 有 监督 学 习 算法 。 第 4 mi 
着 手 讲解 Web 挖掘 技术 ， 也 可 将 其 看 作 有 监督 和 无 监督 方法 。 第 5 章 讲解 推荐 系统 ， 属 于 


EA. 28 7 章 详细 介绍 推荐 系统 (用 到 Django 























有 监督 学 习 范畴 。 第 6 章 介 绍 Django Web fi 































































































法 ,标签 所 代表 的 类 别 有 限 。 手 写 体 数字 识别 是 分 类 问题 的 实际 应 用 ， 甚 目标 是 


















































将 每 个 特征 向 量 匹 配 到 一 组 数量 有 限 的 离散 型 类 别 中 的 茶 个 类 别 。 
回归 : 标签 为 连续 型 变量 。 例 如 ,根据 孩子 的 年 龄 和 体重 预测 身高 就 是 一 个 回归 














问题 。 









































































































































框架 和 第 5 章 相关 知 识 ) 的 实现 。 我们 以 一 个 Django Web 挖掘 应 用 实例 结束 本 书 ， 实 现 该 











hv FJ ria fs 


























j 从 第 4 章 学 到 的 一 些 技术 。 学 完 本 





并 有 能 力 将 其 部 署 到 用 Django 实现 的 真实 Web 





本 章 接 下 来 我 们 将 给 出 一 个 实例 ， 展 示 机 


Python 库 (NumPy、pandas 和 matplotlib) 教程 。 只 有 掌握 这 些 库 的 用 法 ， 才 能 实现 从 后 续 





BB， 你 应 该 能 够 理解 不 同 的 机 器 学 习 方 法 ， 
应 用 。 


器 学 习 如 何 用 于 实际 业务 问题 ， 还 将 给 出 





























章节 学 到 的 各 种 算法 。 
机 硕 学 习 示例 


























为 了 进一步 解释 机 器 学 习 可 以 拿 真 实数 据 做 什么 , 我们 一 起 来 看 下 面 这 个 例子 (下 面 的 代 


码 可 从 作者 的 GitHub 主页 该 3 








的 文件 夹 下 找到 ， 地 址 为 https://github.com/ai2010/machine_ 


learning for the web/tree/master/chapter 1/。 我 们 从 UCI 机 器 学 习 数 据 库 Chttp:/archive.ics.uci.edu/) 
下 载 因 特 网 广告 数据 集 nternet Advertisements Data Set, http://archive.ics.uci.edu/ml/ 


datasets/Internet+Advertisements)。 这 些 Web 广告 从 各 种 各 样 的 网 页 收集 而 来 ， 每 个 网 页 被 
转换 为 一 个 特征 向 量 ， 其 元 素 为 数值 类 型 。 从 ad.names 文件 ， 我 们 可 以 看 到 前 三 个 特征 表 




















































































































示 网 页 中 广告 图 像 的 尺寸 ， 其 他 特征 表示 图 像 的 URL 或 在 文本 中 出 现 了 哪些 特定 词语 〈 共 
有 1558 个 特征 )。 根 据 网 页 中 是 否 有 广告 ， 标 签 的 取 值 为 ad 或 nonad。 举 个 例子 ， 一 个 网 
页 在 ad.data 文件 中 是 这 么 表示 的 : 


1255 






































125; sp k..0,5 ly. 0;.ad. 





CD 还 有 一 类 叫 


























作 半 监 督学 习 ， 学 习 器 从 未 标记 样本 自动 学 习 。 见 周志 华 著 的 《机 器 学 习 》。 
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根据 这 些 数 据 ， 一 个 经 典 的 机 器 学 习 任 务 是 找到 一 个 模型 ， 预 测 哪些 网 页 是 广告 ， 哪 
些 不 是 广告 〈 分 类 )。 首 先 来 看 一 下 包含 全 部 特征 向 量 和 标签 的 ad.data 文件 ， 我 们 发 现 它 
包含 一 些 用 ?表示 的 缺失 值 。 我 们 可 以 用 Python 的 pandas 库 将 ?转换 为 -1 (pandas 库 详 细 教 
程 见 下 市 ): 








































































































import pandas as pd 

df = pd.read csv('ad-dataset/ad.data' ,header=None) 
df-df.replace(('?': np.nan}) 

df=df.replace({' ?': np.nan]) 


df=df.replace ({' ?': np.nan}) 
df=df .replace({' ?': np.nan}) 
df=df .replace({' ?': np.nan}) 


df=df .fillna(-1) 











读 入 ad.data 文件 中 的 数据 ， 创 建 一 个 DataFrame 对 象 ， 先 把 每 个 ?替换 为 一 个 特殊 的 
元 素 (replace 函数 )， 然 后 再 蔡 换 为 -1 Cfillna 函数 )。 这 样 每 个 标签 都 被 转换 为 数值 类 型 元 
素 〈 数 据 中 的 其 他 元 素 亦 同 ): 
































adindices = df[df.columns[-1]]== 'ad.' 
df.loc[adindices,df.columns[-1]]-»1 

nonadindices = df[df.columns[-1]]-2-2'nonad.' 
df.loc[nonadindices,df.columns[-1]]-20 
df[df.columns[-1]]-2df[df.columns[-1]].astype(fl1oat) 
df.apply(lambda x: pd.to numeric (x)) 




















每 个 ad. 标 签 转换 为 1， 而 nonad. 则 被 蔡 换 为 0。 所 有 的 列 〈 特 征 ) 需要 是 浮 点 型 的 数 
值 (用 astype 函数 将 标签 转换 为 浮 点 型 ， 在 lambda 函数 中 用 to numeric 函数 将 df 转换 为 
数值 型 )。 

我 们 使 用 scikit-learn E (IE 3 章 ) 提 供 的 支持 向 量 机 (Support Vector Machine; SVM) 
算法 预测 数据 集中 20% 数 据 的 标签 。 首 先 ， 将 数据 分 为 两 部 分 : 训练 集 〈80% ) 和 测试 集 
(2094): 





































































































import numpy as np 

dataset - df.values[:,:] 
np.random.shuffle (dataset) 

data - dataset[:,:-1] 

labels = dataset[:,-1].astype (float) 
ntrainrows = int(len(data)*.8) 

train = data[:ntrainrows,:] 
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trainlabels = labels[:ntrainrows] 
test = data[ntrainrows:,:] 
testlabels = labels [ntrainrows:] 








上 述 代 码 ， 执 行 切 分 数据 集 之 前 ， 用 NumPy 库 〈 教 程 见 下 一 节 ) 封装 的 函数 ， 打 乱 数 




















据 的 顺序 Crandom.shuffle 函数 )， 确 保 两 个 数据 集 的 各 行 数 据 是 随机 选取 的 。 切 片 操作 中 


的 -1， 表 示 数 组 的 最 后 一 列 不 予 考虑 。 














现在 ， 我 们 用 训练 数据 训练 SVM 模型 ; 


from sklearn.svm import SVC 
clf = SVC(gamma-0.001, Cz100.) 
clf.fit(train, trainlabels) 














我 们 声明 一 个 SVM 模型 ， 指 定 参数 ， 并 将 模型 赋 给 cf 变量 。 调 用 fit 函数 ， 用 训练 数 














据 拟 合 (fit) 模型 (更 多 内 容 见 第 3 章 )。 预 测 20% 测 试 数据 的 平均 正确 率 Cmean accuracy), 























] score 函数 来 计算 ， 代 码 如 下 : 


Score-clf.score(test,testlabels) 
print 'score:',score 




















运行 上 述 代码 《完整 代码 见 作者 GitHub 主页 chapter 1 文件 夹 )， 得 到 92% 的 正确 率 ， 














也 就 是 说 测试 集 标签 的 预测 结果 中 ，92% 的 预测 标签 跟 实 际 标签 相同 。 这 就 是 机 器 学 习 的 
威力 所 在 : 根据 以 往 数据 ， 我 们 能 够 推断 一 个 网 页 是 否 包含 广告 。 为 了 实现 预测 功能 ， 我 


们 做 了 必要 的 准备 工作 ， 用 NumPy 和 pandas 库 准 备 和 预 处 理 数据 ， 然 后 用 scikit-learn 库 
封装 的 SVM 算法 处 理 清洗 过 的 数据 。 鉴 于 本 书 将 大 量 使 用 NumPy 和 pandas (有 时 也 会 用 






































































































































到 matplotlib) 库 ， 下 面 几 节 将 分 别 介绍 这 些 库 的 安装 方法 以 及 用 它们 处 理 〈 甚 至 创建 ) 数 
据 的 方法 。 


在 终 





























安装 和 导入 模块 〈 库 ) 


继续 讨论 这 些 库 之 前 ， 我 们 先 讲 怎样 在 Python 中 安装 模块 。 常 用 的 模块 安装 方法 是 ， 
端 使 用 pip 命令 : 



































>>> sudo pip install modulename^ 


然后 ， 通 常 使 用 下 述 语句 导入 模块 : 











注意 是 在 终端 而 不 是 Python shell 里 运行 pip 命令 。 该 处 代码 应 去 掉 前 面 的 Python shell 提示 符 。 一 一 译 者 注 
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import numpy as np 





其 中 ，numpy 是 包 名 , np 指 代 numpy， 做 了 这 一 步 操作 之 后 ， 该 库 中 的 所 有 函数 X 都 
可 以 用 np.X 而 不 必用 numpyX 访问 。 本 书 从 此 往 后 假定 所 有 的 库 (scipy、 scikit-learn、pandas、 
scrapy 和 nltk 等 ) 都 用 上 面 这 种 方式 来 安装 和 导入 。 


1.2 数据 的 准备 、 处 理 和 可 视 化 
matplotlib 教程 
































NumPy、pandas 和 























大 多 数 数据 在 我 们 拿 到 时 ， 其 形式 很 不 实用 ， 无 法 直接 用 机 器 学 习 算 法 处 理 。 如 上 
一 个 例子 所 见 〈 上 一 节 )， 数 据 中 有 些 元 素 可 能 缺失 ， 或 某 些 列 不 是 数值 型 ， 因 此 无 法 直 
接 用 机 器 学 习 技术 处 理 。 因 而 ， 机 器 学 习 专 家 通常 花费 大 量 时 间 清 洗 和 准备 数据 ， 转 换 
数据 的 形式 ,以便 进 一 步 分 析 或 做 可 视 化 处 理 。 本 节 教 你 用 NumPy 和 pandas 库 , 用 Python 
语言 创建 、 准 备 和 处 理 数 据 。matplotlib 小 节 ， 将 介绍 Python 绘图 基础 知识 。NumPy 教 
TAA Python shell 进行 讲解 ， 但 是 代码 的 IPython notebook 版 和 纯 Python 脚本 版 ， 都 已 
放 到 作者 GitHub 主页 chapter 1 XÆ. pandas 和 matplotlib 两 个 库 的 讲解 则 用 IPython 
notebook。 


1.2.1 NumPy 的 用 法 





























































































































































































































Numerical Python 或 NumPy 是 Python 的 一 个 开源 扩展 包 , 是 数据 分 析 和 高 性 能 科学 计 
算 的 基础 模块 。 该 库 问 世 后 ， 用 Python 处 理 大 规模 、 多 维 数组 和 和 矩阵 不 再 是 梦想 。 对 于 常 
数值 计算 ， 它 提供 预先 编译 好 的 函数 。 更 进一步 来 讲 ， 它 提供 一 个 巨大 的 数学 函数 库 来 
支持 数组 运 


该 库 提 供 以 下 功能 : 

。 用 于 向 量 算术 运算 的 快速 、 多 维 数组 ; 

。 对 数据 中 所 有 数组 进行 快速 运算 的 标准 数学 函数 ; 
。 线性 代数 运 
。 排序 、 去 重 nique) 和 集合 运算 ; 

。 统计 和 聚合 数据 。 

比 起 Python 的 标准 运算 ，NumPy 的 主要 优势 在 于 数组 运算 速度 快 。 例 如 ， 用 传统 的 
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求 和 方法 ， 求 10000000 个 元 素 的 和 : 


>>> def sum trad(): 

>>> start = time. time () 
>>> X = range(10000000) 
>>> Y = range(10000000) 
>> z= [] 


>>> for i in range (len (X) ) : 
>>> Z.append(X[i] + Y[i]) 
>>> return time.time() - start 
与 NumPy 函数 对 比 : 


>>> def sum numpy(): 


>>> start = time.time() 

>>> X = np.arange (10000000) 

>>> Y = np.arange (10000000) 

>>> Z=X+Y 

>>> return time.time() - start 

>>> print 'time sum:',sum trad(),' time sum numpy:',sum numpy () 


time sum: 2.1142539978 





time sum numpy: 0.0807049274445 


两 种 方法 所 用 时 间 分 别 为 2.1142539978 和 0.0807049274445. 


1. 数组 创建 











数组 对 象 是 NumPy 库 提 供 的 主要 功能 。 
所 有 元 素 的 数值 类 型 相同 (通常 为 浮 点 型 或 整 型 )。 借 助 array 函数 ， 可 
































数组 相当 于 Python 的 列表 Uist)， 但 数组 
列表 定义 一 个 





























数组 对 象 ， 需 为 array 函数 传 入 两 个 参数 : 即将 被 转换 为 数组 的 列表 、 新 生成 的 数组 的 


>>> arr = np.array([2, 
>>> arr 

array([ 2., 6., 5., 
>>> type(arr) 


6, 5, 9], 
9.]) 


«type 'numpy.ndarray'» 





反之 ， 可 用 如 下 代码 将 数组 转换 为 列表 : 





>>> arr = np.array([1, 2, 3], 
>>> arr.tolist() 
[1.0, 2.0, 3.0] 


float) 





float) 
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>>> list(arr) 
[1.0, 2.0, 3.0] 


、 ”将 数组 赋 给 变量 ,新 建 数组 ,这 样 做 不 会 在 内 存 为 数组 
< 欢 人 创建 一 个 新 的 副本 , 它 只 是 将 新 定义 的 变量 指向 原 数组 
对 象 。 


若 想 用 现 有 数组 ， 创 建 一 个 新 的 数组 对 象 ， 则 要 用 copy 函数 : 








>>> arr = np.array([1, 2, 3], float) 
>>> arrl - arr 

>>> arr2 = arr.copy() 

>>> arr[0] = 0 


>>> arr 
array([0., 2., 3.]) 
>>> arrl 
array([0., 2., 3.]) 
>>> arr2 


array([1., 2., 3.]) 




















此 外 ,还 可 以 用 同一 个 值 填充 数组 ， 履 盖 掉 之 前 的 值 ， 得 到 一 个 元 素 全 部 相同 的 数组 ， 
例如 : 




















>>> arr = np.array([10, 20, 33], float) 
>>> arr 

array([ 10., 20., 33.]) 

>>> arr.fill(1) 

>>> arr 

array([ 1., 1., 1.]) 














还 可 以 用 np 的 子 模块 random 随机 选取 元 素 创 建 数 组 。 例 如 ， 将 要 创建 的 数组 的 长 度 
作为 permutation 函数 的 参数 传 入 ， 该 函数 返回 一 个 由 整数 组 成 的 随机 序列 : 

















>>> np.random.permutation (3) 
array([0, 1, 2]) 








另 一 种 数组 创建 方法 是 用 normal 函数 从 一 个 正 态 分 布 中 抽取 一 列 数字 ， 


>>> np.random.normal(0,1,5) 














O 整数 的 取 值 范围 为 大 于 等 于 0， 小 于 指定 的 参数 。 一 一 译 者 注 
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array([-0.66494912, 0.7198794 , -0.29025382, 0.24577752, 0.23736908]) 


























参数 0 为 正 态 分 布 的 均值 ，1 为 标准 差 ，5 表示 抽取 5 个 数字 创建 数组 。 若 使 用 均匀 分 
fH, random 函数 将 返回 0 到 1 之 间 ( 不 包含 0 和 1) 的 数字 : 








>>> np.random.random(5) 
array([ 0.48241564, 0.24382627, 0.25457204, 0.9775729 , 0.61793725]) 








U 





NumPy HERILANE ER GERE) 的 函数 。 例 如 ，identity 函数 创建 单位 矩阵 ， 


; 度 用 参数 来 指定 : 











N 
4 
NR 





>>> np.identity(5, dtype-float) 
array([[ 1., 0., 0., O., O.], 


[ 0., 1., 0., 0., 0.], 
L 0. 0., 1., 0., 0.], 
[0., 0., 0., 1., 0.], 
[0., 0., 0., O., 1.11) 





eye 函数 返回 第 下 条 对 角 线 上 元 素 为 1 的 矩阵 


H 














o 





>>> np.eye(3, k-1, dtype-float) 
array([[ 0., 1., 0.], 

[ 0., 0., 1.], 

[ 0., 0., 0.11) 








Tar 





创建 新 数组 (1 或 2 维 ) 最 常用 的 函数 是 zeros 和 ones, 它们 按照 指定 的 维度 创建 数组 ， 
并 分 别 用 0 或 1 填充 。 示 例如 下 : 























>>> np.ones((2,3), dtype-float) 
array([[ 1., 1., 1.], 

E-l 11) 
>>> np.zeros(6, dtype-int) 
array([0, 0, 0, 0, O, 0]) 




















而 zeros like 和 ones like 函数 ， 创 建 的 是 跟 现 有 数组 元 素 的 类 型 "和 维度 都 相同 的 数组 : 


>>> arr = np.array([[13, 32, 31], [64, 25, 76]], float) 
>>> np.zeros like(arr) 
array([[ 0., 0., 0.], 








@ 指数 组 内 各 元 素 的 数值 类 型 。 一 一 译 者 注 
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[ 0., 0., 0.]]) 
>>> np.ones_like (arr) 
array ([[ 1., 1., 1.], 

[ 1.; 1., 1.11) 






































另外 一 种 创建 二 维 数组 的 方法 是 ， 用 vstack 函数 (垂直 方向 合并 ) 合并 一 维 数组 : 





























>>> arrl = np.array([1,3,2]) 
>>> arr2 = np.array([3,4,6]) 
>>> np.vstack([arrl,arr2]) 
array ([[1, 3, 2], 

[3, 4, 6]]) 



































二 维 数组 也 可 以 用 random 子 模 块 按照 某 种 分 布 进行 创建 。 例 如 , 随机 从 0 到 1 的 均匀 
分 布 中 选取 数字 作为 数组 元 素 ， 创 建 一 个 2X3 型 数组 ， 方 法 如 下 : 





c— 




















>>> np.random.rand(2,3) 
array([[ 0.36152029, 0.10663414, 0.64622729], 
[ 0.49498724, 0.59443518, 0.31257493]]) 





另 一 种 经 常用 来 创建 数组 的 分 布 是 多 元 正 态 分 布 : 


>>> np.random.multivariate normal([10, 0], [[3, 1], [1, 41], size-[5,1]) 
array([[ 11.8696466 , -0.99505689], 

10.50905208, 1.47187705], 

9.55350138, 0.48654548], 

[ 10.35759256, -3.72591054], 

[ 11.31376171, 2.15576512]]) 


m c 


























列表 [10,0] 是 均值 向 量 ，[[3, 1], [1, 4]] 是 协 方差 窍 阵 ，$ 是 要 抽取 的 元 素数 量 。 
d 1.4 




























































































方法 用 途 

tolist 将 NumPy 数组 转换 为 Python 列表 的 函数 

copy 复制 NumPy 数组 元 素 的 函数 

ones, zeros 创建 用 1 或 0 填充 的 数组 的 函数 

zeros like, ones like 该 函数 用 来 创建 与 作为 参数 的 列表 形状 相同 的 二 维 数组 
fill 将 数组 元 素 蔡 换 为 某 一 特定 元 素 的 函数 
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续 表 
方法 用 途 
identity 创建 单位 矩阵 的 函数 
eye 该 函数 用 来 创建 第 条 对 角 线 上 元 素 为 0 的 矩阵 
vstack 将 数组 合并 为 二 维 数组 的 函数 
random 子 模块 : random, permutation, | random 子 模块 从 某 种 分 布 抽取 元 素 ， 创 建 数组 














normal. rand. multivariate normal 等 





2. 数组 操作 























访问 列表 元 素 、 切 片 以 及 其 他 Python 列表 的 所 有 常见 操作 ， 均 能 以 相同 或 相似 的 方式 




















作用 于 数组 : 


>>> arr = np.array([2., 6., 5., 5.]) 
>>> arr[:3] 

array([ 2., 6., 5.]) 

>>> arr[3] 

5.0 

>>> arr[0] = 5. 

>>> arr 

array([ 5., 6., 5., 5.]) 








数组 所 包含 的 不 同 元 素 也 可 以 获取 到 ， 用 unique 函数 即 可 : 


>>> np.unique (arr) 
array([ 5., 6.]) 


数组 元 素 的 排序 也 可 以 用 sort 函数 。 数 组 的 索引 用 argsort 函数 获取 : 


>>> arr = np.array([2., 6., 5., 5.]) 
>>> np.sort (arr) 

array([ 2., 5., 5., 6.]) 

>>> np.argsort(arr) 

array([0, 2, 3, 1]) 

















用 shuffle 函数 也 可 以 调整 数组 元 素 ， 使 其 随机 排列 : 








>>> np.random.shuffle (arr) 
>>> arr 
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array([ 2., 5., 6., 5.]) 

















NumPy 数组 类 似 ， 也 有 一 个 内 置 函数 array_equal， 用 来 比较 两 个 数组 是 否 相 等 




















>>> np.array equal (arr,np.array([1,3,2])) 
False 

















lim 











然而 ， 多 维 数组 与 列表 操作 不 同 。 事 实 上 ， 多 维 列 表 各 维度 用 去 号 分 隔 的 形式 依次 指 


























定 〔 而 列表 用 方 括 号 ”)。 例 如 ， 二 维 列表 (和 矩阵 ) 元素 访问 方法 如 下 : 




















>>> matrix = np.array([[ 4., 5., 6.], [2, 3, 6]], float) 
>>> matrix 
array([[ 4., 5., 6.], 
[ 2., 3., 6.11) 
>>> matrix[0,0] 
4.0 
>>> matrix[0,2] 
6.0 
































对 数组 的 各 维 进行 切片 操作 使 用 英文 冒号 :， 冒 号 前 后 为 位 于 起 始 位 置 和 结束 位 置 的 元 


























素 的 索引 : 


>>> arr = np.array([[ 4., 5., 6.], [ 2., 3., 6.]], float) 
>>> arr[1:2,2:3] 
array ([[ 6.11) 

















仅 用 冒号 :， 不 用 数字 ， 表 示 冒 号 所 在 轴 上 的 所 有 元 素 都 在 切片 范围 之 内 : 





















































>>> arr[1,:] 
array([2, 3, 6]) 
>>> arr[:,2] 
array([ 6., 6.]) 
>>> arr[-1:,-2:] 
array([[ 3., 6.11) 


flatten 函数 可 将 多 维 数组 变 为 一 维 数组 : 








(D 相等 ， 指 形状 和 元 素 是 否 均 相等 。 此 外 ， 列 表 比 较 用 cmp 函数 。 一 一 译 者 注 























© »»»multilist = [[4, 5, 6], [2, 3, 6]] 
»»»multilist[0][0] 


4 


一 一 译 者 注 
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>>> arr = np.array ([[10, 29, 23], [24, 25, 46]], float) 
>>> arr 
array([[ 10., 29., 23.], 
[ 24., 25., 46.]1]) 
>>> arr.flatten() 
array([ 10., 29., 23., 24., 25., 46.]) 





我 们 还 可 以 查看 数组 对 象 ， 获 取 相 关 信息 。 用 shape 属性 ， 可 得 到 数组 的 大 小 : 











>>> arr.shape 
(2, 3) 


该 例 中 ，arr 是 一 个 2 fT 3 列 的 矩阵 。dtype 属性 返回 数组 元 素 的 类 型 : 











>>> arr.dtype 
dtype('float64') 





数值 类 型 float64 用 来 存储 双 精 度 (8 字 节 ) 实数 〈 类 似 于 Python 的 标准 float 类 型 ) 。 
他 数据 类 型 有 int64、int32 和 字符 串 。 数 组 的 数据 类 型 可 以 转换 。 例 如 : 








>>> int arr = matrix.astype (np.int32) 
>>> int arr.dtype 
dtype('int32') 





len 函数 返回 数组 第 一 维 的 长 度 : 














>>> arr = np.array([[ 4., 5., 6.], [ 2., 3., 6.]], float) 
>>> len (arr) 
2 











关键 字 in， 类 似 于 它 在 Python for 循环 中 的 用 法 ， 可 用 来 判断 数组 是 否 包含 某 个 元 素 : 


>>> arr = np.array([[ 4., 5., 6.], [ 2., 3., 6.]], float) 
>>> 2 in arr 

True 

>>> 0 in arr 

False 





reshape 函数 可 调整 数组 的 维度 。 "例如 ，8 fr 1 列 的 矩阵 可 调整 为 4 行 2 列 的 矩阵 : 

















生 译 就 是 reshape 函数 可 调整 元 素 所 在 的 维度 。 一 一 译 者 注 














异步 社区 会 员 YN Sl bb eno» dy I 3 Std com) 专 享 尊重 版 权 




















14 第 1 章 Python 机 器 学 习 实 践 入 门 
>>> arr = np.array(range(8), float) 
>>> arr 
array([ O., 1., 2., 3., 4., 5., 6., 7.]) 
>>> arr = arr.reshape((4,2)) 
>>> arr 
array([[ 0., 1.], 
by 2 
E 4.557]; 
[ 6., 7.]1) 
>>> arr.shape 
(4, 2) 
此 外 ， 还 支持 矩阵 的 转 置 运 算 ， 也 就 是 说 ， 用 transpose 函数 可 互 换 两 个 维度 ， 创 
个 新 数组 : 
>>> arr = np.array(range(6), float).reshape((2, 3)) 
>>> arr 
array([[ 0., 1., 2.], 
br 474 5-11) 


>>> arr.transpose() 
array([[ 0., 3.], 

[ 1., 4.], 

[ 2., 5.11) 








数组 还 可 以 用 工 属 性 实现 转 置 ， 








>>> matrix 
>>> matrix 


array([[ 0, 1, 2, 3, 4], 

[ 5, 6, 7, 8, 9], 

[10, 11, 12, 13, 14]]) 
>>>matrix .T 
array ([[ 0, 5, 10], 

[ 1, 6, 11], 

[ 2, 7, 12], 

[ 3, 8, 13], 

[ 4, 9, 14]]) 








另 一 种 调整 数组 元 素 位 置 的 方法 是 ， 月 


np.arange(15).reshape((3, 5)) 























>>> arr 
>>> arr 


np.array([14, 32, 13], 
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H newaxis 函数 增加 维度 ; 


float) 
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array([ 14., 32., 13.]) 
>> arr[:,np.newaxis] 
array([[ 14.], 

[ 32.], 

[ 13.11) 
>>> arr[:,np.newaxis].shape 
(3,1) 
>>> arr[np.newaxis,:] 
array([[ 14., 32., 13.]]) 
>>> arr[np.newaxis,:].shape 
(1,3) 





上 述 例子 ， 两 个 新 数组 都 是 二 维 的 。 由 newaxis 生成 的 第 二 个 数组 长 度 为 1。 


NumPy 数组 的 连接 操作 用 concatenate 函数 ， 句 法 形式 取决 于 数组 的 维度 。 多 个 一 维 数 
组 可 相继 连接 ， 将 要 连接 的 多 个 数组 置 于 元 组 中 作为 参数 传 入 即 可 : 























>>> arrl = np.array([10,22], float) 

>>> arr2 np.array([31,43,54,61], float) 

>>> arr3 = np.array([71,82,29], float) 

>>> np.concatenate((arrl, arr2, arr3)) 

array([ 10., 22., 31., 43., 54., 61., 71., 82., 29.]) 














多 维 数组 必须 指定 治 哪 条 轴 连 接 。 和 否则，NumPy 默认 沿 第 一 条 轴 连 接 : 


>>> arrl = np.array([[11, 12], [32, 42]], float) 
>>> arr2 = np.array([[54, 26], [27,28]], float) 
>>> np.concatenate( (arrl,arr2)) 
array([[ 11., 12.], 

[ 32., 42.], 

[ 54., 26.], 

[ 27., 28.]1]) 
>>> np.concatenate((arrl,arr2), axis-0) 
array([[ 11., 12.], 

[ 32., 42.], 

[ 54., 26.], 

[ 27., 28.]1]) 
>>> np.concatenate((arrl,arr2), axis-1) 
array([[ 11., 12., 54., 26.], 

[ 32., 42., 27., 28.]]) 






































将 大 量 数据 保存 为 二 进 制 文件 而 不 用 原 FEVER, 这 样 的 情况 很 常见 。NumPy 的 tostig 
函数 可 将 数组 转化 为 二 进 制 字符 串 。 当 然 ， 这 个 过 程 是 可 逆 的 ，fromstring 函数 可 将 二 进 制 
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字符 串 还 原 为 数组 。 例 如 ; 


>>> arr = np.array([10, 20, 30], float) 

>>> str = arr.tostring() 

>>> str 
'\x00\x00\x00\x00\x00\x00$@\x00\x00\x00\x00\x00\x004@\x00\x00\x00\x00\ 
x00Nx00»Q' 

>>> np.fromstring (str) 

array([ 10., 20., 30.]) 






































zx 12 
方法 用 途 
unique 从 数组 选取 所 有 不 同 元 素 的 函数 
random. shuffle 调整 数组 元 素 位 置 ， 使 其 随机 排列 的 函数 





sort 按照 升序 排列 数组 元 素 
argsort 返回 数组 元 素 升序 排列 时 的 索引 列表 ” 


sort. argsort 




























































































array equal 比较 两 个 数组 ， 如 果 相 同 ， 返 回 True (否则 返回 False) 
flatten 将 二 维 数组 转换 为 一 维 数组 
transpose 计算 二 维 数组 的 转 置 
reshape 调整 二 维 数组 的 元 素 ， 改 变数 组 的 形状 
concatenate 沿 现 有 的 轴 ， 连 接 多 个 数组 ” 
fromstring 、tostring 二 进 制 字符 串 和 数组 之 间 的 互相 转换 
数组 运算 




















NumPy 数组 显然 文 持 常 见 的 数学 运算 。 例 如 : 


>>> arrl = np.array([1,2,3], float) 
>>> arr2 = np.array([1,2,3], float) 
>>> arrl 二 arr2 

array([2.,4., 6.]) 

>>> arrl-arr2 








O 返回 结果 的 类 型 为 NumPy 数组 。 一 一 译 者 注 
Q) 原文 为 “Concatenate two -dimensional arrays into one matrix”， 意 思 是 拼接 两 个 数组 ， 形 成 一 个 和 矩阵， 不 够 全 面 。 因 此 ， 此 
处 译文 是 根据 SciPy.org 文档 对 concatenate 函数 的 描述 翻译 的 。 译 者 注 
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array([0.，0.，0.]) 
>>> arrl * arr2 
array([1, 4., 9.]) 
>>> arr2 / arrl 
array([1., 1., 1.]) 
>>> arrl $ arr2 
array([0., 0., 0.]) 
>>> arr2**arrl 
array ([1., 4., 27.]) 









































既然 上 述 运算 都 作用 于 元 素 级 别 ， 这 就 要 求 参 与 运算 的 数组 大 小 相同 。 如 果 该 条 件 不 
能 满足 ， 就 会 返回 错误 : 








>>> arrl np.array([1,2,3], float) 

>>> arr2 np.array([1,2], float) 

>>> arrl + arr2 

Traceback (most recent call last): 

File "«stdin»", line 1, in «module» 

ValueError: shape mismatch: objects cannot be broadcast to a single shape 






































上 述 错误 信息 的 意思 是 无 法 对 对 象 进行 广 播 (broadcast)， 因 为 大 小 不 同 的 数组 参与 运 
算 的 唯一 方法 叫 作 广播 。 广 播 的 意思 是 数组 维度 不 同时 ， 维 度 少 的 数组 将 多 次 重复 自身 ， 
直到 它 跟 另外 一 个 数组 维度 相同 。 看 下 面 的 示例 : 



















































































>>> arrl = np.array([[1, 2], [3, 4], [5, 6]], float) 
>>> arr2 = np.array([1, 2], float) 
>>> arrl 
array ([[ 1., 2.], 
[3 
[ 5., 6.11) 
>>> arr2 
array([1., 2.]) 
>>> arrl 
array([[ 
[ 
[ 


arr2 

24]. 
r 6.1], 
， 8.11) 


oO &NGc-e 


arr2 被 广播 成 大 小 跟 arrl 相同 的 二 维 数组 。 因 而 ， 对 于 arl 的 每 一 维 ，arr2 都 重复 自 
身 一 次 ， 相 当 于 arr2 变换 为 下 面 这 个 数组 后 再 参加 运算 : 








"n 






































array([I1., 2.],[1., 2.1], [1., 2.11) 
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IE 
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指定 数组 的 广播 方式 ， 可 用 newaxis 7$ 5^: 








>>> arrl = np.zeros((2,2), float) 
>>> arr2 = np.array([1., 2.], float) 
>>> arri 


array ([I[ 


0., 0.],[ 0., 0.11) 


>>> arr2 

array ([1., 2.]) 

>>> arrl + arr2 

array([[-1., 3.],[-1., 3.11) 
>>> arrl + arr2[np.newaxis,:] 
array ([[1., 2.],[1., 2.11) 
>>> arrl + arr2[:,np.newaxis] 
array ([[1.,1.],[ 2., 2.11) 


IR Python 列表 "不同 的 是 ， 数 组 支持 按 条 件 查询 ， 用 布尔 数组 过 滤 元 素 就 是 一 个 


的 例子 : 


>>> arr 
>>> arr >= 7 
array([[ False, False], 























= np.array([[1, 2], [5, 911], float) 


[False, True]], dtype-bool) 
>>> arr[arr »- 7] 
array([ 9.]) 


可 以 用 多 个 布尔 表达 式 获取 数组 的 子 集 : 





>>> arr[np.logical and(arr > 5, arr < 11)] 


>>> arr 


array([ 9.]) 





典型 


ANLE 


我 们 可 以 根据 索引 选取 元 素 ， 用 目标 元 素 的 索引 构造 一 个 数据 类 型 为 整 型 的 数组 ， 然 
后 ， 将 索引 数组 放 到 目标 数组 的 后 面 ， 并 用 方 括号 括 起 来 。 例 如 : 


























>>> arrl = np.array([1, 4, 5, 9], float) 
>>> arr2 = np.array([0, 1, 1, 3, 1, 1, 1], int) 








CD 代码 中 arrl+arr2 输出 结果 有 误 。 应 为 : 


arrl + arr2 


array([[ 1., 
[ 1., 


@ 要 实现 Python 列表 筛选 操作 ， 可 使 用 内 置 函 数 filter。 一 一 译 者 注 


2. 
2. 


] 
] 


, 


D 一 一 译 者 注 
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>>> arrl[arr2] 
array([ 1., 4., 4., 9., 4., 4., 4.]) 








上 述 第 3 行 代码 ， 表 示 按 照 arr2 指定 的 索引 顺序 ， 从 数组 arrl 中 选取 相应 的 元 素 ， 也 





就 是 选取 arrl 的 第 0、 第 1、 第 1、 第 3、 第 1、 第 1 和 第 1 个 元 素 。 用 列表 存储 目标 元 素 
的 索引 ， 可 以 达到 同样 的 选取 效果 : 














>>> arr = np.array([1, 4, 5, 9], float) 
>>> arr[[0, 1, 1, 3, 1]] 
array([ 1., 4., 4., 9., 4.]) 


























多 维 数组 的 选取 操作 ， 需 要 使 用 多 个 一 维度 的 索引 数组 ， 每 个 维度 对 应 一 个 索引 数组 。 





索引 数组 放 到 Python 列表 中 ”， 再 将 Python 列表 置 于 多 维 数组 后 面 的 方 括号 之 中 。 

















第 1 个 种 子 数组 (selection array) 存储 矩阵 元 素 的 行 号 ， 第 2 个 种 子 数组 存储 列 号 。 











例如 : 


的 第 1 个 元 素 为 位 于 第 1 行 、 第 1 列 的 13. 





>>> arrl 
>>> arr2 
>>> arr3 = np.array([1, 1, 0, 1], int) 


np.array([[1, 2], [5, 13]], float) 
np.array([1, O, O, 1], int) 


>>> arrl[arr2,arr3] 
array([ 13., 2., 1., 13.]) 


arr2 的 元 素 为 arrl 元 素 的 行 号 ， 而 arr3 的 元 素 则 为 arrl 元 素 的 列 号 ， 因 此 从 arrl 选取 


























take 函数 支持 以 索引 数组 为 参数 ， 从 调用 它 的 数组 选取 元 素 ， 效 果 等 同 于 上 面 的 方 括 




















号 选择 法 : 


>>> arrl = np.array([7, 6, 6, 9], float) 

>>> arr2 = np.array([1, 0, 1, 3, 3, 1], int) 
>>> arrl.take(arr2) 

array([ 6., 7., 6., 9., 9., 6.]) 





用 axis 参数 指定 维度 , take 函数 可 从 调用 它 的 多 维 数 组 、 沿 指定 维度 选取 一 部 分 元 素 : 











>>> arrl = np.array([[10, 21], [62, 33]], float) 
>>> arr2 = np.array([0, 0, 1], int) 
>>> arrl.take(arr2, axis-0) 





O 指示 例 代码 第 4 行 中 的 [arr2, ar3] 。 一 一 译 者 注 
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array([[ 10., 
[ 10., 
[ 62., 


21.], 
21.], 
33.11) 
>>> arrl.take(arr2, axis-1) 
array([[ 10., 10., 21.], 
[ 62., 62., 33.]1]) 


Python 机 器 学 习 实 践 入 门 


put 函数 为 take 函数 的 逆 操作 ， 它 有 两 个 参数 : 将 元 素 放 到 什么 位 置 〈 索 引 列 表 )、 被 
投放 的 元 素来 自 哪个 数组 。put 函数 将 一 个 数组 的 元 素 放 到 调用 该 函数 的 另 一 个 数组 的 指定 


























位 置 : 
>>> arrl = np.array([2, 1, 6, 2, 1, 9], float) 
>>> arr2 = np.array([3, 10, 2], float) 
>>> arrl.put([1, 4], arr2) 
>>> arrl 
array([ 2., 3., 6., 2., 10., 9.]) 








本 节 最 后 ， 我 们 想 提 醒 你 注意 ， 二 维 数 组 的 乘法 运算 也 是 元 素 级 的 (但 矩阵 乘法 
































不 是 ): 

>>> arrl = np.array([[11,22], [23,14]], float) 

>>> arr2 = np.array([[25,30], [13,33]], float) 

>>> arrl * arr2 

array([[ 275., 660.], 

[ 299., 462.]1]) 

表 13 
方法 用 途 
take 以 一 个 整数 数组 做 参数 表示 索引 ， 从 另 一 个 数组 选取 相应 的 元 素 
put 将 一 个 数组 给 定位 置 的 元 素 蔡 换 为 另 一 个 数组 的 元 素 





4. 线性 代数 运算 






































j 的 运算 是 ， 和 矩阵 与 





矩阵 之 间 最 党 




















KEBEKIA X. EAI, H np.dot 函数 ”: 











CD np.dot(X.T, X) 的 输出 结果 附 图 有 误 ， 应 为 : 


np.dot(X .T, X) 


array([[125, 140, 155, 170, 185] 
[140, 158, 176, 194, 212] 
[155, 176, 197, 218, 239] 
[170, 194, 218, 242, 266] 
[185, 212, 239, 266, 293] 





D We 
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>>> X = np.arange(15).reshape((3, 5)) 
>>> X 
array([[ 0, 1, 2, 3, 4], 

[5,6,7,8, 9], 

[10, 11, 12, 13, 14]]) 
>>> X.T 
array([[ 0, 5, 10], 

[ 1, 6, 11], 

[ 2, 6, 12], 

[ 3, 8, 13], 

[ 4, 9, 14]]) 


»»»np.dot(X .T, X)#X^T X 
array([[ 2.584 1.8753, 0.8888], 


, 



















































































和 可 视 化 一 NumPy. pandas f! matplotlib 教程 21 























[ 1.8753, 6.6636, 0.3884], 
[ 0.8888, 0.3884, 3.9781]1) 
有 几 个 函数 可 直接 计算 数组 (矩阵 或 向 量 ) 不 同类 型 的 积 〈 内 积 、 外 积 、 向 量 积 )。 
一 维 数 组 (向量) 的 内 积 与 点 积 相同 : 
>>> arrl = np.array([12, 43, 10], float) 
>>> arr2 = np.array([21, 42, 14], float) 
>>> np.outer(arrl, arr2) 
array([[ 252., 504., 168.], 
[ 903., 1806., 602.], 
[ 210., 420., 140.]]) 
>>> np.inner(arrl, arr2) 
2198.0 
>>> np.cross(arrl, arr2) 
array([ 182., 42., -399.]) 
NumPy 的 linalg FIRIR, KIL TAERE A PHR ERZO. pu, YPTEABEERYfTZUSA 
的 值 : 
>>> matrix = np.array([[74, 22, 10], [92, 31, 17], [21, 22, 12]], float) 
>>> matrix 
array([[ 74., 22., 10.], 
[ 92., 31., 17.], 
[ 21., 22., 12.]1]) 
>>> np.linalg.det (matrix) 
-2852.0000000000032 
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inv E RAE BERRE REO: 








>>> inv matrix = np.linalg.inv (matrix) 
>>> inv matrix 
array([[ 0.00070126, 0.01542777, -0.02244039], 
[ 0.26192146, -0.23772791, 0.11851332], 
[-0.48141655, 0.4088359 , -0.09467041]]) 
>>> np.dot(inv matrix,matrix) 
array([[ 1.00000000e400, 2.22044605e-16, 4.77048956e-17], 
[ -2.22044605e-15, 1.00000000e-00, 0.00000000e-400], 
[ -3.33066907e-15, -4.44089210e-16, 1.00000000e-00]]1) 


[E 








矩阵 的 特征 值 Ceigenvalues) 和 特征 向 量 〈eigenvectors) 计算 方法 很 简单 : 














>>> vals, vecs = np.linalg.eig (matrix) 

>>> vals 

array ([ 107.99587441, 11.33411853, -2.32999294]) 

>>> vecs 

array([[-0.57891525, -0.21517959, 0.06319955], 
[-0.75804695, 0.17632618, -0.58635713], 
[-0.30036971, 0.96052424, 0.80758352]]) 


A14 


方法 用 途 








dot 两 个 数组 的 点 积 























inner 两 个 多 维 数组 的 内 积 














linalg 模块 中 的 linalg.det 、 | linalg 模块 包括 多 个 线性 代数 运算 方法 











其 中 有 求 矩 阵 的 行列 式 的 值 



































linalg.inv 和 linalg.eig 等 函数 (det). HERRERIA Gnv) 以 及 和 抢 阵 的 特征 值 和 特征 向 量 〈eig) 























5. 统计 和 数学 函数 


NumPy 提供 一 组 计算 数组 元 素 统计 信息 的 函数 。 聚 合 型 运算 ， 比 如 求 和 、 均 值 、 中 位 























(i 





数 和 标准 差 ， 可 通过 访问 数组 的 相应 属性 得 到 。 例 如 ， 随 机 选取 元 素 《〈 服 从 某 正 态 分 布 )， 























建 一 个 数组 ， 我 们 可 以 用 以 下 两 种 方法 计算 数组 元 素 的 均值 : 




















np.dot(inv matrix, matrix) 的 输出 结果 附 图 有 误 ， 应 为 : 





np.dot(inv matrix, matrix) 


array([[ 1.00000000e*-00, -1.11022302e-16, -1.11022302e-16], 
[ 1.77635684e-15,  1.00000000e-00, -4.44089210e-16], 
[ -3.33066907e-15,  -4.44089210e-16,  1.00000000e-00]]) 


一 一 译 者 注 
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>>> arr = 
>>> arr.mean() 
0.45808075801881332 
>>> np.mean (arr) 
0.45808075801881332 
>>> arr.sum() 
14.658584256602026 





所 有 这 一 类 函数 见 表 1.5。 
表 1.5 


np.random.rand(8, 
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方法 用 途 

mean 各 元 素 的 均值 。 空 数组 ， 均 值 默认 为 NaN 

std. var 计算 数组 的 标准 差 (std〉 和 方差 〈var)。 可 指定 自由 度 参数 〈 默 认为 数组 的 长 度 ) 
min、max 求 数组 最 小 值 (min〉 和 最 大 值 (max) 

argmin、argmax 返回 最 小 (argmin) 和 最 大 Cargmax) 元 素 的 索引 





1.2.2 ”理解 pandas 模块 


Python 的 pandas 模块 功能 强大 ， 包 含 大 量 
pandas 的 设计 初衷 是 降低 数 志 


NumPy Pr. 

















iu 




















j 于 分 析 数 据 
5) Wr ER VE K X 


EE, 


结构 的 函数 。 它 依赖 于 





提升 速度 。 比 起 Python 

















的 标准 函数 ，pandas 函数 性 能 














ki. Jh 





其 擅长 文件 读 写 、 











DE 


居 库 操作 ; pandas 是 数据 





处 理 的 最 





佳 选 择 TRE 

















居所 包含 的 信 


操作 ， 下 面 几 节 将 给 出 答案 。 我 们 先 讲 


县 ， 主 要 方法 有 哪些 以 及 如 何 用 pandas 进行 

















EAEE pandas 中 的 存储 














攻 式 和 数据 的 加 载 





方法 。 


本 书 从 此 往 后 ， 我 们 都 用 如 下 语句 导入 pandas: 


import pandas as pd 


因此 ， 下 文 所 有 代码 ， 只 要 有 pd， 均 指 pandas. 


1. 探索 数据 





我 们 先 介绍 pandas 只 有 一 维 的 数组 类 对 象 Series， 以 此 引入 pandas 的 数据 库 结 构 
DataFrame。 Series 可 以 存储 NumPy 所 有 类 型 的 数据 ， 同 时 还 存储 数据 的 标签 一 一 索引 。 














我 们 来 看 一 个 简单 的 例子 : 
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In [8]: obj = pd.Series([3,5,-2,1]) 
obj 
Out[8]: 0 3 
1 5 
2 -2 
3 1 
dtype: int64 














obj 对 象 由 两 类 值 组 成 ， 右 侧 为 元 素 ,， 左 侧 为 元 素 对 应 的 索引 。 给 定 元 素数 组 的 长 度 为 
N， 索 引 则 默认 从 0 排 到 N-1. Series 的 元 素数 组 和 索引 对 象 ， 可 分 别 用 values 和 index 属 























In [9]: obj.values 
Out[9]: array([ 3, 5, -2, 1]) 
In [10]: obj.index 


Out[10]: Int6é4Index([0, 1, 2, 3], dtype-'int64') 





















































NumPy 数组 运算 ,索引 会 予以 保留 (例如 标量 乘法 、 用 布尔 数组 过 滤 或 用 数学 函数 处 
里 数组 ): 























In [11]: bbj *2 


Out[11]: 0 6 
J 10 
2 -4 
3 2 


dtype: int64 


In [12]: obD[obj»2] 


Out[12]: 0 3 
1 5 
dtype: int64 





























Python 字典 可 转换 为 Series 对 象 ， 但 是 字典 的 键 被 转换 为 索引 : 











In [19]: [data = ('a': 30, 'b's 70, 'c's 160, 'd'i 5) 
obj = pd.Series(data) 
obj 
Out[19]: a 30 
b 70 
c 160 
d 5 
dtype: int64 























也 可 以 用 单独 的 列表 作为 索引 : 
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In [20]: | Índex = ['a','b','c','d','q'] 
obj = pd.Series(data, index-index) 
obj 
Out[20]: a 30 
b 70 
e 160 
d 5 
g NaN 
dtype: float64 





上 述 例子 , 最 后 一 个 索引 g, 没有 对 应 的 元 素 ， 因此 pandas 默认 插入 NaN (Not a Number; 
非 数字 )。 














我 们 用 缺失 值 或 NAN 来 指 代 缺 失 的 数据 。 用 pandas 的 isnull 和 notnull 函数 ， 可 找 出 
缺失 值 : 

In [16]: pd. isnull(obj)| 

Out[16]: a False 
b False 
c False 
d False 
dtype: bool 


In [17]: pd.notnull(obj) 


Out[17]: a True 
b True 
c True 
d True 
dtype: bool 














现在 ， 我 们 可 以 从 一 个 CSV 文件 导入 数据 到 DataFrame 结构 。DataFrame 这 种 数据 结 
构 ， 有 一 组 按 顺 序 排列 的 列 ， 每 一 列 可 以 是 不 同 的 数据 类 型 〈 数 值 、 字 符 串 、 布 尔 值 等 )。 
DataFrame 有 两 种 索引 〈 行 、 列 索引 )。 我 们 也 可 以 将 DataFrame 看 成 一 个 由 Series 对 象 组 
成 的 字典 ， 每 个 Seres 里 面 ， 所 有 元 素 的 索引 相同 〈 列 的 标题 )。 下 面 我 们 结合 ad.data 文件 中 
的 数据 进行 讲解 ， 该 数据 可 从 http://archive.ics.uci.edu/ml/datasets/Internet--Advertisements 
下 载 。 在 前 面 机 器 学 习 的 例子 已 介绍 过 。 

在 终端 输入 以 下 代码 导入 数据 (该 例 中 ， 数 据 文件 的 路 径 为 data example/ad-dataset/ 
ad.data^): 










































































In [4]: data = pd.read csv("data example/ad-dataset/ad.data",header-zNone) 


该 文件 没有 标题 行 〈 故 将 header 参数 设置 为 none)， 因 此 使 用 数字 作为 各 列 的 名 称 。 




















© 原 书 此 处 为 “ad-data”， 文 件 名 实际 为 “ad.data”。 一 一 译 者 注 
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在 data 对 象 上 调用 describe 消 数 ， 可 得 到 DataFrame 的 各 种 总 描述 性 统计 信息 : 

































































In [5]: data.describe() 
Pp 4 5 6 7 8 9 10 11 12 13 
count |3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | 3279.000000 | .| 
mean|0.004270 |0011569 “|0.004575 |ooo3355 [0.009965  |o011589  |o.003355  |o.004680 |ooo9149 |0.004575 
std (0.065212 [0.107042 [0.067491  |0.057831 — |0.062850  |0.107042  |0.057831  |0.069694  |0.095227 |0.067491 
min [0.000000 0.000000 [0.000000 0.000000  |0.000000  |o.000000 0.000000 |o.000000 |o.000000 |o.000000 |. 
25% |0.000000  |0.000000  |0.000000  |0.000000 0.000000  |0.000000 [0.000000  |o.000000  |0.000000  |0.000000 
so% |0.000000 0.000000  |0.000000  |0.000000  |0.000000  |0000000 0.000000 0.000000  |0.000000  |0.000000 
75% 0.000000 0.000000  |0.000000  |0.000000  |0.000000  |0.000000 0.000000  |0.000000 [0.000000  |0.000000 
max |1.000000 1.000000  |1.000000  |:.000000  |1.000000  |1.000000  |1.000000  |1.000000  |1.000000  |1.000000 
8 rows x 1554 columns 














上 面 总 结 了 几 种 定量 信息 。 由 此 可 见 ， 该 数据 集 总 共有 1554 个 数值 类 型 的 列 〈 因 为 没 

















标题 行 ， 列 的 名 称 月 











有 数字 表示 )、3279 fj (对 每 一 列 调用 





count 消 数 )。 每 一 列 都 有 一 组 


统计 指标 (均值 标准 差 、 最 小 值 \ 最 大 值 和 分 位 数 ), 这 些 统计 数据 有 助 于 我 们 对 DataFrame 
中 数据 的 定量 信息 做 出 初步 估计 。 

















用 columns 属性 可 获取 到 所 有 列 的 名 称 : 








Out[25]: Inté4Index([ 


In [25]: hata.columns 


0, 


1, 


2, 


3, 4, 


5, 


6, 7, 8, 


9, 


1549, 1550, 1551, 1552, 1553, 1554, 1555, 1556, 1557, 1558], 
dtype-'int64', length-1559) 








所 有 列 的 名 称 为 int64 类 型 ， 下 述 命令 返回 所 有 列 的 实际 数据 类 型 : 








In [26]: 


Out[26]: 


0 
1 
2 
3 
4 
5 


1557 
1558 


data.dtypes 


object 
object 
object 
object 
int64 
int64 


int64 
object 
dtype: object 








前 4 列 和 标签 列 〈 最 后 1 列 ) 为 object 
第 1 种 ， 指 定 列 的 名 称 ， 与 # 


Loo 


HÆTT 


类 型 





类 型 ,其 余 为 int64 类 型 。 列 的 访问 方法 有 两 种 。 


典 的 键 相似 : 








In [6]: 


Out[6]: 





data[1] 

0 125 
1 468 
29 234 
3277 ? 
3278 40 
Name: 


1, dtype: object 
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用 列表 形式 ， 指 定 多 个 列 名 称 ， 可 获取 到 多 列 : 














In [27]: | data[[1,20]] 





0ut[27]: 














3279 rows x 2 columns 





























另 一 种 访问 列 的 方法 是 点 号 句法 ， 这 只 有 在 列 名 称 也 是 Python 变量 〈 中 间 没 有 空格 )， 
没有 重 名 的 DataFrame 属性 或 函数 (比如 count 或 sum)， 并 且 列 名 称 还 必须 是 字符 串 类 型 
时 ， 才 能 使 用 该 方法 (该 例 中 ， 列 名 称 为 int64 类 型 ， 因 此 不 能 用 此 方法 )。 

若 想 对 DataFrame 中 的 内 容 有 一 个 大 致 的 了 解 ， 可 使 用 head0 函 数 。 它 默认 返回 一 列 
的 前 5 个 元 素 (或 DataFrame 的 前 5 行 ): 


































































































In [28]: datalh].head() 


Out[28]: 0 125 
1 468 
2 230 
3 468 
4 468 
Name: 1, dtype: object 











当然 也 可 以 用 tail0 函 数 ， 它 默认 返回 最 后 5 个 元 素 或 5 行 。 在 head0 或 tail0 函 数 中 指 
定数 字 n， 将 返回 所 选 列 的 前 、 后 n 个 元 素 : 











In [29]: datall1].head(10) 


Out[29]: 0 125 
1 468 
2 230 
3 468 
4 468 
5 468 
6 460 
7 234 
8 468 
9 468 
Name: 1, dtype: object 

















用 Python 的 标准 切片 句法 ， 也 可 以 从 DataFrame 中 获取 到 一 定数 量 的 行 : 
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In [7]: data[1:3]| 





Out[7]: 














2 rows x 1559 columns 











上 述 代 码 仅 获取 到 DataFrame 的 前 两 行 〈 当 然 还 有 标题 )。 
2. 操作 数据 
行 的 选取 方法 有 多 种 ， 比 如 指定 索引 或 按 条 件 选 取 : 





In [31]: data[data[1]> 0].head(4) 





9wt31 | [o fa [2 [sla[sle 








eojojo|-4 




















e 
8 
r3 
8 
N 
w 
- 
o 
o 
o 
o 
o 
o 
o 
o 
o 
o 
o 





4 rows x 1559 columns 











或 者 ， 按 多 个 条 件 选取 数据 : 











In [32]: data[(data[1]» 0) & (data[1558]=='ad.')].head(4) 
orae | lo. |4 |o 3|4|s|e|7 |a|o .. | 1549 | 1550 1551 | 1552 aeo e ae 1556 | 1557 | 1558 | 
o|125|125|10 |1|olololololol. p E o |o E fe o |o lad | 





ales feoleseoo rllololololol e lo oo fo oo le CN 





sleo [seslrs llolololololollo [o lo [o lo [o lo lo [o fæ | 


4 rows x 1559 columns 














上 面 返 回 的 数据 为 特征 1 大 于 0 且 包含 广告 的 网 页 。 
ix 方法 通过 指定 索引 来 选择 相应 的 行 ， 




















In [33]: data.ix[:3] 





Out[33]: 





0|125|125|1.0 1|01010101010|. 
1|57 |468|8.2105|1|0|0|0|0|0|0|. 














4 rows x 1559 columns 








此 外 ， 也 可 以 使 用 iloc 函数 : 
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Out[34]: 


In [34]: Hata.iloc[:3] 





o |a |2 .[sl4|s|e|7|a|o|.. 


1649 | 1560 |1551 | 1552 | 1553 | 1554 | 1555 


1556 | 1557 |1558 





0 |125 | 125| 1.0 [1 olololololol..lo 0 


jo lo fo ja. 





1/57 |468|8.2105|1|0|o|olololo|..lo |o 


|o |o fo ja. 














233 |aso|esese|1|o|o|o|o|o|o|..o fo 


lo |o |o ja. 








3 rows x 1559 columns 











函数 返回 
索引 列 的 标签 名 








ix 和 iloc 的 不 同 点 在 于 ，ix 操作 的 是 索引 列 标签 的 名 称 ， 而 iloc 操作 的 是 索引 的 位 置 
《因此 它 只 能 接收 整数 )。 因 此 ， 上 述 例子 ，ix 一 直 找 到 标签 





， 返 回 相应 的 行 "“。 例 如 ; 














3 出 现 为 止 ( 共 4 行 )， 而 iloc 
DataFrame 的 前 3 行 。 访 问 DataFrame 内 部 数据 ， 还 














个 函数 叫 作 loc， 它 查找 








In [35] 





Out[35]: 


: data.loc[:3] 





o 11 |2 |sl4lslsl7|sls 


|1549 | 1550 |1551 |1552 |1553 |1554 | 1555 | 1556 | 1557 | 1558 





0|125 |125|1.0 


ojololololol.lo |o lo fo lo fo 








2|33 |230|6.9696|1|0|olololo|o|..|o 








[e[s] 
1[o]o] 
1|sz |48|82105|1 o o|o]o|o]o|.. |o 
1of0] 
aofo] 


3|60 |468|78 olololololol..lo 


o [o Jad 
o |o la 
o jo lad 
o jo ja 








4 rows x 1559 columns 





























他 操作 。DataFrame 对 象 的 一 


该 函数 与 Python 的 标准 切片 方法 不 同 ， 
中 ， 输 出 结果 包含 索引 为 3 的 行 )。 
其 








因为 结果 包括 起 始 和 结束 位 置 的 行 〈 该 例 





整 列 可 设置 为 同一 个 值 : 























In [36 





]: data[1547] = 0 








也 可 以 将 指定 的 单元 格 设置 为 我 们 想 要 的 值 : 








In 





[37]: data.ix[3,1]-0 












































或 将 整 行 设置 为 一 组 值 〈 该 例 使 用 随机 数 0 或 1 和 ad. E 








In [38]: 


|import random 
data.ix[0] = 


[random.randint(0,1) for r in xrange(1558)]*['ad 


2 





数组 转换 为 Series 对 象 后 ， 可 作为 新 的 一 





行 追加 到 DataFrame 的 末尾 : 





In [40]: 





row = [random.randint(0,1) for r hn xrange(1558)]*['ad.'] 
data = data.append(pd.Series(row,index = data.columns),ignore index-True) 











用 loc 函数 可 在 DataFrame 最 后 增加 一 行 : 





QD loc 方法 ， 如 果 是 切片 操作 ， 起 始 和 结束 标签 所 对 应 的 行 连同 它们 之 间 的 行 都 能 才 
签 为 label 的 行 。label 既 可 以 是 数字 也 可 以 是 字符 串 











符 串 。 译 者 注 
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。 如 果 是 loc[label]， 则 只 能 获取 到 标 
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In [70]: 


data.loc[len(data)] = 


row 














H 





追加 列 则 非常 简单 ， 将 元 素 赋 给 DataFrame 新 的 列 即 可 : 





In [41]: 
data.columns 


Out[41]: Index([ 





data['newcolumn'] = 'test value' 


0, 1, 2, 3, 
5, 6, 7; 8, 
1550, 1551, 1552, 1553, 
1555, 1556, 1557, 1558, 


dtypez'object', length-1560) 


4, 
9, 


1554, 
u'newcolumn'], 








上 述 例子 ， 新 增 的 列 所 有 元 素 的 值 为 test value. 























删除 列 ， 


可 用 drop 函数 : 





In [56]: 
data.columns 


Out[56]: Index([ 0, 





1549, 1550, 1551, 1552, 1553, 1554, 1555, 
dtype-'object', length-1559) 


data = data.drop('newcolumn', 1) 


1, 2, 3, 4, 5, 6, 7, 8, 


1556, 


1557, 


9, 


1558], 


























四， 数据 集 也 许 包含 


limi 





H5. pandas 的 duplicated 方法 可 判断 每 一 


p 


J 是 








否 是 对 其 他 行 的 重复 : 
In [42]: 
Out[42]: 





Bata.duplicated() 


0 False 
1 False 
2 False 
3 False 
4 False 
3279 False 


dtype: bool 











drop duplicates 函数 比 duplicated 函数 更 强大 ， 它 返回 的 DataFrame UBL f KETER 
余 的 所 有 元 素 。 例 如 ， 使 用 该 函数 ， 我 们 可 以 找 出 标签 这 一 列 两 个 不 同 的 元 素 是 : 








In [43]: 


Out[43]: 





data[1558].drop duplicates() 


0 ad. 
459 nonad. 
Name: 1558, dtype: object 











我 们 还 可 以 方便 地 将 上 述 结果 转换 为 列表 : 





In [44]: 


Out[44]: 





data[1558].drop duplicates().tolist() 


['ad.', 'nonad.'] 








RMI UERR AAU, LR e 21 PE 35 


异步 社区 会 员 TUR. SD eo» dy v Ja Std. com) 专 享 














尊重 版 权 





12 数据 的 准备 、 处 至 








E 和 可 视 化 一 一 NumPy 


. pandas 和 matplotlib 教程 31 








In [46]: adindices = data[data .columns[-1]]== 'ad.' 
data.loc[adindices,data .columns[-1]]-1 
nonadindices = data[data .columns[-1]]--'nonad."' 
data.loc[nonadindices,data .columns[-1]]-20 











标签 列 仍然 为 object 类 型 : 





Out[47]: dtype('O') 


In [47]: data[1558].dtypes 











然后 ， 我 们 可 以 将 标签 列 转换 为 浮 点 型 : 











In [63]: Bata[data.columns[-1]]-data[data.columns[-1]].astype(float) 














前 4 列 包含 不 同类 型 的 数据 (字符 串 、? 和 浮 点 型 数字 )。 我 们 删除 字符 串 类 型 的 元 素 





后 ， 才 能 将 各 列 元 素 转换 为 数值 型 。 我 们 可 以 


换 为 NaN: 























] replace 函数 将 所 有 的 ?实例 〈 缺 失 值 ) 8 








In [71]: data-data.replace(('?': np.nan)) 
data-data.replace((' ?': np.nan)) 
data-data.replace(1' "OM 
data-data.replace((' b 
data-data.replace((' 22 


np.nan)) 


: np.nan)) 


: np.nan)) 











现在 ， 我 们 可 以 用 两 种 方法 
含 缺失 值 的 行 : 



































处 理 包 含 缺 失 值 的 行 。 方 法 一 ， 用 dropna 方法 直接 删除 包 








In [73]: data-Hata.dropna() 


方法 二 ， 包 含 缺 失 数据 的 行 ， 除 了 直接 将 其 删除 〈 可 能 删除 重要 信息 ) 外 ， 也 可 为 其 


















































填充 数据 。 用 filna 方法 ， 向 这 些 空 的 单元 格 填充 一 个 常量 ， 可 满足 大 多 数 需求 ; 














In [74]: data-data.fillna(-1) 























经 过 以 上 处 理 , 所 有 列 的 各 元 素 均 为 数值 型 , 因此 可 用 astype 函数 将 其 设置 为 float 型。 
此 外 ， 我 们 还 可 以 用 lambda 函数 ， 将 DataFrame 的 每 一 列 转换 为 数值 类 型 "; 

















In [82]: Hata-data.apply (lambda X: pd.to numeric(x)) 








上 述 代 码 ， 每 个 x 实例 表示 一 列 ，to_numeric 函数 将 每 一 类 的 元 素 转换 为 最 相近 的 数 


据 类 型 〈 该 例 为 float)。 























CD 2f DataFrame 存在 非 数 值 型 元 素 ， 转 换 时 会 报错 。pandas 0.17 及 以 上 版 本 ， 可 使 用 dfl 





语句 ， 或 提前 处 理 非 数 值 型 元 素 。 一 一 译 者 注 





df.apply(pd.to_numeric, errors='coerce') 


SubrkEC 2 MU. Sj bit eno» Sy fi 34 Sd com) 专 享 尊重 版 权 





32 第 1 章 Python 机 器 学 习 实 践 入 门 


pandas 教程 的 最 后 


景 ， 可 能 会 月 























， 我 们 想 演 示 下 如 何 拼接 两 个 DataFrame 对 象 ， 因 
日 到 这 项 操作 。 我 们 随机 选取 元 素 ， 


为 在 真实 应 用 场 
再 创建 一 个 小 型 的 DataFrame: 














In [83]: datal = pd.DataFrame(columns-[i for i 





datal.loc[len(datal)] = (random.randint(0,1) for r in xrange(1558)]*[1] 
datal.loc[len(datal)] = [random.randint(0,1) for r in xrange(1558)]*[1] 


in xrange(1559)]) 








上 述 代码 生成 一 个 包括 两 行 数据 的 新 表格 




















。 我 们 可 以 用 concat 函数 ， 将 其 合并 到 原 





DataFrame 中 ， 将 datal 的 各 行 拼 接 到 data 的 下 面 : 











In [85]: print len(data) 
datatot - pd.concat([data[:],dat 
len(datatot) 


2362 
2364 





Out[85]: 


al[:]]) 








执行 上 述 操作 后 ,我 们 会 发 现 datatot EG data 增加 了 两 行 Gà 





EX& data 的 行 数 与 刚 开始 的 





不 同 ， 因 为 我 们 后 来 删除 了 它 含有 NaN 元 素 的 行 )。 





1.23 matplotlib 教程 


matplotlib.pyplot 库 ， 类 似 于 MATLAB, fë 
节 的 一 些 数据 分 析 结 果 要 用 它 实现 可 视 化 ， 
即将 用 到 的 所 有 matplotlib 代码 : 














因此 我 们 有 必要 月 


绘 


供 多 种 将 数据 绘制 成 图 的 方法 。 由 于 后 续 章 


一 个 简短 的 例子 ， 解 释 后 面 

















In [1]: import matplotlib.pyplot as plt 
In [2]: 
plt.ylabel('y',fontsize-40) 
plt.xlabel('x',fontsize-40) 
plt.axis([0,3, 0,15]) 
plt.show() 
In [5]: fig = plt.figure(figsize-(10,10) 


ax = fig.add subplot(111) 

ax.set xlabel('x',fontsize-40) 
ax.set ylabel('y',fontsize-40) 
fig.suptitle( 'figure',fontsize-4 
ax.plot([10,5,2,4],color-'green' 
fig.savefig('figure.png') 





plt.plot([10,5,2,4],color-'green',label-'line 1', linewidth-5) 


) 


0) 
,labelz'line 1', linewidth-5) 








导入 该 库 之 后 (导入 为 plt)， 初 始 化 figure 对 象 (fig)， 添 加 axis 对 象 (ax)。 每 条 
线 是 通过 ax.plotO 命 令 绘 制 到 ax 对 象 之 中 ， 每 条 线 称 为 句柄 〈handle)。 然 后 ， 





























matplotlib.pyplot 记录 下 面 所 有 指令 ， 并 将 


其 绘 


ZX Em 





8$ figure 对 象 之 中 。 该 例 中 ， 用 











plt.show(O 命 令 直接 在 终端 显示 绿色 折线 ， 




















文件 。 运行 结 果 见 图 1.1。 


接 下 来 这 个 例子 讲解 如 何 用 
组 ， 见 网 1.2。 





一 条 命令 绘 人 





c 
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羊 式 不 同 的 多 条 曲线 ， 我 们 月 


] fig.savefig() 函 数 将 其 保存 为 figure.png 








到 了 NumPy 数 


重 版 权 
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表示 例 








In [8]: 


import numpy as np 
fig = plt.figure(figsize-(10,10)) 


ax 7 fig.add subplot(111) 

r = np.arange(0., 10., 0.3) 

pl, = ax.plot(r, r, 'r--',label-'line 1', linewidth-10) 

p2, = ax.plot(r, r**0.5, 'bs',label-'line 2', linewidth-10) 
p3, = ax.plot(r,np.sin(r),'g^', label-'line 3', markersize-10) 
handles, labels - ax.get legend handles labels() 


ax.legend(handles, labels,fontsize-40) 
ax.set xlabel('x',fontsize-40) 

ax.set ylabel('y',fontsize-40) 
fig.suptitle('figure 1',fontsize-40) 
fig.savefig('figure multiplelines.png') 








figure 1 






































"" line 1 
i * * line2 
1 ^ 4 line3 
a 
4| ST 
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St M dd 
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图 1.2 多 序列 曲线 图 表示 例 
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注意 上 述 代码 中 的 get legend handles labels() 函数 ， 返 回 存储 在 ax 对 象 中 的 句柄 列 








表 和 标签 ,我 们 需要 将 这 两 项 返回 结果 传 给 legend 函数 完成 绘 





























用 来 设置 线条 的 密度 ，markersize 用 来 设置 点 的 大 小 。 
































A O, e 


o TS I-- » “bs” 和 “g^” 


指 的 是 数据 点 的 形状 和 颜色 (分 别 表示 红色 和 矩形、 蓝 色 方形 和 绿色 三 角形 )。linewidth 参数 
































数据 分 析 结 果 ， 男 一 种 常用 的 可 视 化 方法 是 散 点 图 ， 通 
的 不 同 取 值 情况 (我 们 用 NumPy 的 random 子 模块 生成 这 样 











常用 来 显示 一 组 数据 两 个 变量 
的 一 组 数据 )。 








In [10]: folors = ['b', 'c', 'y' z'] 
fig = plt. i 10)) 
ax = fig.add subplot(111) 


ax.legend((pl,p2,p3),('points 1','points 2','points 3'),fontsize-20) 
ax.set xlabel('x',fontsize-40) 

ax.set ylabel(' y' ,fontsize-40) 

fig.savefig('figure scatterplot.png') 





ax.scatter(np.random.random(10), np.random.random(10), markers'x', colorscolors[0]) 

pl = ax.scatter(np.random.random(10), np.random.random(10), marker='x', colorecolors[0],s*50) 
p2 = ax.scatter(np.random.random(10), np.random.random(10), marker-'o', color*-colors[1],8750) 
p3 = ax.scatter(np.random.random(10), np.random.random(10), marker-'o', color-colors[2],8750) 











ERRE, s 选项 表示 数据 点 的 大 小 ，colors 选项 为 每 组 数据 点 的 颜色 。 我 们 直接 将 句 











柄 (p1.p2,p3) 传 给 legend 函数 ， 见 图 1.3。 
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图 1.3 ”由 随机 分 布 的 数据 点 构成 的 散 点 医 














关于 matplotlib 库 的 更 多 细节 , 我 们 建议 大 家 读 一 读 网 上 的 相关 材料 和 教程 ,比如 他 们 
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官方 提供 的 这 份 教程 : http:/matplotlib.org/users/pyplot tutorial.html 
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1.3 本 书 使 用 的 科学 计算 库 
若 想 实现 本 书 讲解 的 机 器 学 习 技术 , 有 一 些 库 是 必要 的 。 我 们 简要 介绍 后 续 最 常用 的 几 个 库 。 
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SciPy 库 是 基于 NumPy 数组 对 象 开发 的 一 系列 数学 运算 方法 。 作 为 开源 项 目 ， 它 得 

























































































以 充分 利用 世界 各 地 的 开发 者 不 断 编写 出 来 的 新 方法 。 用 SciPy 封装 的 通用 方法 开 
发 的 Python 软件 ， 作 为 高 级 项 目 或 应 用 的 一 部 分 ， 足 以 与 MATLAB、Octave 或 


















































RLab 相 媲美 。SciPy 提供 了 多 种 方法 ， 数 据 操 作 、 数 据 可 视 化 和 并 行 计 算 等 方法 














应 有 尽 有 ， 它 使 得 Python 语言 更 加 丰富 、 更 具 潜 力 。 











scikit-learn ( sklearn ) 是 用 Python 语言 实现 的 开源 机 器 学 习 模 块 。 它 实现 了 聚 类 、 分 
类 和 回归 等 多 种 不 同 的 机 器 学 习 算 法 , 其 中 包括 支持 向 量 机 、 朴素 贝 叶 斯 、 决策 树 、 
随机 森林 大 均值 、 基 于 密度 带 噪声 的 空间 聚 类 应 用 算法 (DBSCAN )。 该 库 和 Python 











H 












































的 NumPy., SciPy 等 数学 计算 库 可 通过 原生 接口 对 接 。 虽 然 该 库 的 大 多 数 方法 是 用 
Python 实现 的 ， 但 为 了 提升 性 能 ， 有 些 函 数 是 用 Cython 实现 的 。 例 如 ， 支 持 向 量 





























机 和 对 数 几 率 回 归 ? 就 是 用 Cython 编写 的 ， 它 们 对 其 他 几 个 外 部 库 
LIBLINEARO 做 了 封装 。 


自然 语言 处 理工 具 集 (NLTK) 包含 一 系列 自然 语言 处 理 (NLP) 库 和 





















































(LIBSVM.、 


函数 。NLTK 


的 设计 初衷 是 为 NLP 和 相关 主题 的 研究 、 教 学 提供 支持 。 这 些 主题 有 人 工 智能 、 








认 知 科学 、 信 息 检 索 、 语 言 学 和 机 器 学 习 。 它 还 有 一 个 特色 是 提供 一 系列 文本 处 理 
函数 ， 可 实现 分 词 〈tokenization)、 提 取 词 干 〈stemming)、 标 注 〈tagging)、 句 法 























分 析 (parsing)、 语 义 推 理 (semantic reasoning) 和 分 类 功能 。NLTK 还 提供 示例 代 

















码 和 数据 ， 可 接 入 50 多 种 语料库 和 词汇 数据 库 。 



































Scrapy 是 用 Python 实现 的 开源 Web JEE Cerawler) 框架 。 它 最 初 是 为 网 站 抓 取 设 
计 的 ， 但 是 作为 通用 型 候 虫 ， 它 也 适合 用 API 抽取 数据 。Scrapy 项 目 意 在 实现 网 


















































络 蜘蛛 〈spider) 功能 ， 蜂 蛛 的 行为 通过 一 组 指令 来 控制 。 它 的 另 























Web 抓 取 shell， 开 发 人 员 在 编码 实现 概念 之 前 ， 可 先 用 shell 做 测试 。 
























































特色 是 提供 
Scrapy 如 今 





Scrapinghub Ltd. 公 司 负责 ， 这 是 一 家 提供 Web 抓 取 技术 的 开发 和 服务 的 公司 。 


Django 是 用 Python 实现 的 开源 Web 应 用 框架 ， 遵 从 模型 -视图 -控制 器 (model- 
































(D logistic regression， 大 抵 有 几 种 译 法 : 逻辑 回归 、 逻 辑 斯 带 回归 、 届 辑 斯 蒂 克 回归 、 对 数 几率 回归 ， 还 有 了 


取 对 数 几 率 




















FF 脆 不 译 的 。 这 里 


























可 归 。 译 者 注 
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view-controller) 架构 模式 。Dijango 的 设计 初衷 是 
站 。 开 发 人 员 可 通过 它 提供 


或 更 新 应 用 所 使 用 的 数 拉 














创建 功能 复杂 、 由 


















































的 管理 界面 管理 应 用 。 























在 管理 界面 可 创建 、 


数据 库 驱 动 的 网 
读 取 、 删 除 





居 。 当 前 ,一 些 知名 网 站 是 用 Django 驱动 的 ， 比 如 Pinterest、 


Instagram, Mozilla, The Washington Times 〈《 华 盛 顿 邮 报 》 官 网 ) 和 Bitbucket。 


1.4 机 器 学 习 的 应 用 场景 














机 器 学 习 也 并 不 是 魔法 ， 不 是 所 有 与 数据 相关 的 问题 都 能 受益 于 它 ， 





无 须 用 机 器 驱动 的 学 习 技术 ， 导 


1.5 


在 本 章 中 ， 我 们 介绍 了 基本 的 机 器 学 习 概 念 和 术语 ， 这 些 知 
























































规则 











清楚 机 器 学 习 技术 的 最 佳 应 有 
I 不 可 能 用 编码 实现 : 一 些 需要 由 人 完成 的 任务 (例如 ， 
无 法 有 效 地 用 简单 的 规则 来 实现 。 实 际 上 ， 多 种 因 
素 ， 人 工 实现 这 些 规则 非常 困难 。 
解决 方案 无 法 扩展 : 人 工 根据 特定 数据 做 
好 的 扩展 性 。 例 如， 机 器 学 习 算 法 可 以 高 效 地 人 遍历 百 万 封 邮 件 ， 痢 
圾 邮件 。 
然而 ， 如 果 仅 用 数学 规则 、 计 算 或 预先 确定 的 模式 就 能 做 到 准确 预测 ， 


依赖 于 大 量 因 





场景 非常 有 必要 。 





























2E, 





z& HJ 

















因此 在 入 门 章节 























间断 邮件 是 否 是 垃圾 邮 





能 影响 其 解决 方案 ， 如 

















决策 非常 耗 时 , 但 机 器 学 习 技术 却 有 很 




















小 结 









































断 它 们 是 不 是 垃 





























识 是 后 续 章节 的 基础 。 


开 且 实现 这 些 方法 
b 么 你 就 没 必 要 使 用 高 级 机 器 学 习 技术 你 也 不 应 该 使 用 )。 





我 


们 还 介绍 了 机 器 学 习 专 业 人 士 准备 数据 、 处 理 数 据 和 实现 数据 可 视 化 最 常用 的 几 个 库 
(NumPy、pandas 和 matplotlib)。 此 外 ， 后 面 要 用 到 的 其 他 几 个 Python 库 ， 我 们 也 一 并 做 


了 简要 介绍 。 




















处 理 方 法 ， 

















JX— E, 


fie VE TEC 















































外 转换 为 机 器 学 习 





主要 的 无 监督 学 习 算 法 以 及 如 何 用 sklearn 库 实 现 它们 。 
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你 应 该 大 体 了 解 了 机 器 学 习 技术 的 实际 用 途 。 你 应 该 熟悉 了 常用 的 数据 
法 可 以 处 理 的 格式 。 下 一 章 ， 我 们 来 向 大 家 解释 





第 











E. IRE PE 





1 章 已 介绍 过 , 无 监督 学 习 的 目 
数据 集 (指数 据点 和 特征 的 数量 都 很 多 ) 往 
乍 一 眼看 上 去 很 难看 出 任何 信息 。 遇 
藏 在 数据 中 的 内 在 结构 〈 聚 类 )， 或 在 不 丢失 相关 信息 的 前 提 


主要 聚 类 算法 (第 1 部 分 ) 和 降 允 


第 2 章 


监督 机 器 学 习 









































和 各 自 的 优点 , 我 























i$ 








2.1 


库 。 所 有 代码 ] 
learning for the web/tree/master/chapter 2/。 现 在 我 们 开始 讲 


Ite s 


聚 类 算法 





的 是 从 未 标记 数据 发 现 富有 洞 
往 缺 乏 内 在 结构 (我 们 称 其 
| 这 种 情况 ， 就 要 用 无 监督 机 器 学 习 技术 ， 突显 隐 


察 力 的 信息 。 大 型 
为 “ 非 结 构 化 ”)， 









































下 降低 数据 的 复杂 度 〈 降 


EA CH 2 部 分 )。 它 们 的 不 同 点 
门 会 用 实际 的 例子 加 以 说 明 。 实 现 这 些 例子 要 用 到 Python 的 几 个 科学 
网 可 从 我 的 GitHub 主页 下 载 ， 地 址 是 https://github.com/ai2010/machine_ 


HxMA 
聚 类 

















法 。 





聚 类 算法 〈clustering algorithm )， 将 数据 重组 为 按 某 


cluster)， 以 便 从 数据 中 推 新 出 有 意义 的 结构 。 我 
的 数据 点 。 量 化 数据 点 之 间 相 似 度 的 方法 ， 
恨 据 处 理 数据 时 所 使 用 的 度量 方法 或 做 出 
接 下 来 讨论 时 下 最 常用 的 儿 大 方法 : 
Chierarchical methods). FARATE, RIA YEA 
论 分 布 方 法 。 


























后 









































In] EUER 


BEARR 





方式 排列 的 多 个 子 集 〈 簇 ， 
定义 为 一 组 具有 某 些 相似 特征 
的 种 类 。 
































的 假设 , 我 们 可 将 聚 类 算法 分 成 不 同 的 种 类 。 





分 布 方法 、 



































notebook 版 本 和 纯 Python 代码 版 本 ， 都 
https://github.com/ai2010/machine learning for the web/tree/master/chapter 2/. 














面 我 们 将 通过 实际 的 例子 比较 








质心 点 方法 、 密 度 方法 和 层次 方法 
讲解 它 的 一 种 算法 实现 。 我 们 首先 讨 
不 同 算法 的 性 能 。 本 章 代 码 的 IPython 
己 放 到 我 的 GitHub 主页 该 书 的 文件 夹 下 ， 详 见 
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2.1.1 分 布 方法 


这 类 方法 假定 数据 来 自 某 种 分 布 ， 并 用 最 大 期 望 算法 寻找 分 布 参数 的 最 优 参 数值 。 下 
面 我 们 讨论 最 大 期 望 算 法 和 高 斯 混合 聚 类 (Gaussian clustering )。 
最 大 期 望 算 法 


最 大 期 望 算法 MS maximization)， 是 用 于 寻找 参数 分 布 模型 的 最 大 似 然 估计 ， 
分 布 模型 依赖 于 隐 变 量 ”( 变 量 的 值 无 法 观测 到 )。 最 大 期 望 算法 的 每 次 迭代 包括 两 个 步 又 : 
期 望 步 (E-step )， 用 参数 的 当前 值 构造 对 数 似 然 函 数 Clog-likelihood function); 最 大 化 步 
(M-step)， 计 算得 到 使 EE 步 对 数 似 然 度 最 大 的 新 参数 值 。 


给 定 一 个 由 N 个 元 素 组 成 的 数据 集 {zo}】 i = 1, …N， 其 对 数 似 然 度 为 ; 
1(O) = > logp(zo:g) = SS pad) 


其 中 ，0 为 分 布 的 参数 ，z" 表示 所 谓 的 隐 变 量 。 


我 们 希望 在 不 知道 2”( 无 法 观测 的 变量 ) 取 值 的 情况 下 ,找到 最 大 化 对 数 似 然 度 的 参 
数值 。 假 定 我 们 有 一 种 2” 上 的 分 布 ， 和 z® 的 概率 密度 函数 QC), 2,0 (z”)=1。 因 而 : 


































































































































































































pisa) 
sp] 
上 式 中 的 OCO) KREE zO 在 x? 发 生 这 一 前 提 下 的 后 验 概 率 ， 以 0 为 参数 。 最 大 期 
望 算 法 用 到 了 Jensen 不 等 式 ， 它 确保 执行 以 下 两 步 : 


ipf po oe) 
p(x © £0: ;0) 
2 zjiog 全 一 Q(z 9) 
ITZULI R RUS, (SUI KOSPUDLEA RE, ATA 0 就 是 我 们 想 求 的 。 
2. 高 斯 混合 聚 类 算法 


高 斯 混合 聚 类 算法 (Mixture of Gaussians), 用 混合 的 多 个 高 斯 分 布 来 模拟 整个 数据 集 。 


加 





p(z? 





mo) 















































CD 隐 变 量 在 英文 中 称 为 hidden variable 或 latent variable。 一 一 译 者 注 
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— BH 


而 ， 簇 的 数量 由 模型 所 包含 的 高 斯 分 布 的 数量 来 决定 。 给 定 由 N 个 元 素 组 成 的 数据 集 
x9), Pel, EPEA x? e R' 为 高 斯 混合 模型 中 一 个 由 4 个 特征 组 成 的 向 量 ， 并 且 ， 


pe 所 到 三 Yoox - k)p(z^ - i.d) - Mp (x^ ERT 
= kl 



































e 20 El1,…, K KETE, KIRIA xO 是 由 哪个 高 斯 成 分 (Gaussian component) ^E 
成 的 y={ 4,…, ug } 为 各 高 斯 成 分 的 均值 参数 。 


e E-(X,75, x} 为 各 高 斯 成 分 的 方差 参数 。 





。 办 为 混合 权重 "， 表 示 随 机 选取 的 x 中 由 高 斯 成 分 生成 的 概率 ， lA =l; 











Fipo 06 } 为 各 权重 的 集合 。 





1 人 n i xu € En i 、 
。 P(e has Z.) c m gs Mr ^ 表示 每 个 数据 点 x 中 对 应 的 以 Cj4 E, ) 
k 


为 参数 的 高 斯 成 分 ko 
高 斯 混合 模型 的 参数 有 Jp、 和 >。 为 了 估计 这 些 参数 ， 我 们 可 以 将 数据 集 的 对 数 似 然 
函数 写 为 : 


Ig. l, 7)= > sl (x sop z))- È loe)» (x og, 20 - kJ p(z - k,9) 


我 们 采用 前 一 节 讲 的 最 大 期 望 算 法 寻找 参数 值 ， 参 数 的 对 应 关系 为 E (um, E). 
Q(z? EpC ,). 

参数 的 初始 值 我 们 不 知道 ， 只 好 先 用 猜测 的 值 ， 然 后 迭代 以 下 步骤 直到 收敛 。 

(1) 期 望 步 : 根据 贝 叶 斯 定理 计算 O 的 后 验 概率 ， 更 新 权重 到 ”= p(z ERU LU jx): 
后 验 概率 计算 方法 如 下 : 











































































































































































































(2) 最 大 化 步 : 将 参数 更 新 为 如 下 形式 〈 下 面 3 个 式 子 是 通过 求 最 大 值得 到 的 ， 上 其 体 











CD 混合 权重 ， 原 文 为 “mixture weight”。 周 志 华 老师 的 《机 器 学 习 》207 页 将 其 称 作 “mixture coefficient”， 译 为 “混合 系数 ”。 
译 者 注 
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方法 是 令 似 然 函 数 的 导数 为 0， 分 别 对 jy、 三 和 g 求 偏 * 


SN 


En 











zl 
(I 
































注意 ， 由 于 隐 变 量 ZO 未 知 ， 因 此 需要 使 用 最 大 期 望 算法 。 否 则 ， 这 个 问题 就 变 为 有 监 
督学 习 问题 ，zw 则 表示 训练 集 每 个 数据 点 的 标签 并 且 使 用 的 有 监督 算法 将 会 是 高 斯 判别 
分 析 ")。 因 而 ， 高 斯 混合 聚 类 是 无 监督 算法 ， 其 目标 是 找到 zo ， 也 就 是 每 个 数据 点 xm 对 
应 的 个 高 斯 成 分 ,事实 上 ,通过 计算 KX 个 类 别 每 个 类 别 的 后 验 概率 p(z? = kl? ds zz). 
我 们 可 以 将 每 个 x 划分 到 后 验 概率 最 高 的 类 别 中 。 在 一 些 应 用 场景 中 ， 该 算法 能 够 胜任 
数据 聚 类 或 标记 数据 ) 任务 。 

我 们 举 个 实际 的 例子 ， 来 说 明 高 斯 混合 聚 类 算法 可 能 的 应 用 场景 有 哪些 。 比 如 ， 教 授 
拿 到 了 两 个 班 的 成 绩 ， 但 是 没有 标 出 学 生 的 班级 。 假 定 每 个 班 的 成 绩 都 服从 高 斯 分 布 ，1 
想 将 成 绩 按 班级 分 开 ， 这 时 就 可 以 用 高 斯 混合 聚 类 。 再 举 一 个 例子 ， 我 们 从 两 个 国家 采集 
了 一 组 身高 数据 ， 假 定 每 个 国家 人 口 的 身高 都 服从 高 斯 分 布 ， 如 何 根据 每 个 人 的 身高 数据 
判断 他 们 来 自 哪个 国家 ， 这 个 问题 可 用 该 算法 来 解决 。 


2.1.2 质心 点 方法 


质心 点 方法 (centroid methods) 用 到 以 下 技术 : 寻找 各 艇 的 中 心 ， 将 数据 点 划分 到 离 它 最 近 
的 饼 ， 最 小 化 簇 的 质心 点 和 被 划 归 到 该 禾 的 数据 点 之 间 的 距离 。 这 是 一 个 最 优化 问题 最 后 得 到 
的 质心 点 为 向 量 ， 它 们 也 许 不 是 原 数据 集 的 数据 点 。 该 类 聚 类 方法 ， 艇 的 数量 是 待 估 参 数 ， 我 们 
需要 为 其 指定 一 个 初始 值 。 该 类 方法 最 终生 成 的 各 个 艇 ,它们 的 大 小 通常 差不多 ， 这样 也 就 没 必 
要 精确 界定 各 艇 之 间 的 边界 。 这 个 最 优化 问题 可 能 会 得 到 局 部 最 优 解 ， 这 表明 初始 值 不 同 ， 得 到 
的 簇 会 有 轻微 的 不 同 。 最 常用 的 质心 点 聚 类 方法 为 上 均值 算法 (Lloyd 算法 )， 其 距离 度量 方法 
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CD 英文 为 “Gaussian discriminant analysis”。 一 一 译 者 注 
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为 欧 几 里 得 范 数 〈Euclidean norm)， 该 算法 要 最 小 化 该 种 距离 。 其 他 寻找 质心 点 的 方法 ， 用 各 艇 
的 中 值 Gc 中 值 聚 类 ) 或 强制 使 用 实际 存在 的 数据 点 作为 质心 点 。 进 一 步 讲 ， 这 些 方 法 还 有 一 些 
变种 ， 它 们 的 区 别 在 于 最 初 质心 点 的 定义 方式 CK 均值 ++? 或 模糊 c 均值 ) 不 同 。 


k 均值 算法 


该 算法 尝试 根据 每 个 徐 数 据点 之 间 的 平均 距离 寻找 质心 点 ， 使 被 划 归 到 各 簇 的 数据 点 
到 质心 点 之 间 的 距离 最 小 。 我 们 可 将 其 与 解决 分 类 问题 的 近邻 算法 对 照 来 看 ， 两 者 之 间 
存在 联系 。 聚 类 的 结果 可 以 表示 为 维 诺 图 。(Voronoi diagram, 一 种 根据 距离 一 组 点 的 远近 ， 
比如 我 们 这 里 各 簇 的 质心 点 , 将 空间 划分 为 不 同 区 域 的 方法 ), 给 定数 据 集 {x},iEl,…,N， 
该 算法 要 求 预先 选择 一 组 质心 点 KK。 我 们 将 每 个 簇 各 数据 点 到 质心 点 (距离 ) 的 均值 表示 
为 14，jEl,…;K， 为 J 赋予 随机 值 。 然 后 ， 迭 代 以 下 步骤 直到 算法 收敛 。 





























































































































CD 对 于 每 一 个 数据 点 六 计算 i 跟 每 个 质心 点 j 之 间 的 欧 氏 距离 ， 寻 找 质 心 点 索引 di 
使 得 每 个 数据 点 和 质心 点 之 间 的 距离 最 小 化 : | x? |, j El,*…,K。 

(2) 对 于 每 一 个 质心 点 j， 重 新 计算 dog 等 于 j 的 这 些 数据 点 (数据 点 属于 均值 为 uj 
的 秘 ) 到 质心 点 距离 的 均值 : 






































易 知 该 算法 收敛 于 以 下 函数 : 
F= Yo ET 


随 着 迭代 次 数 的 增加 ， 函 数值 单调 递减 。 既 然 环 为 非 凸 函数 ， 无 法 保证 最 终 得 到 的 最 
小 值 为 全 局 最 小 值 。 为 了 避免 聚 类 结果 为 局 部 最 小 值 , 我 们 通常 随机 选取 不 同 的 初始 均值 ， 


多 运行 几 次 算法 。 然 后 ， 从 中 选取 使 得 FF 函数 值 较 小 的 那 一 种 作为 解决 方案 。 
2.1.3 ”密度 方法 


密度 方法 (density methods) 所 依据 的 思想 是 ， 数 据点 稀疏 的 区 域 通常 被 视 为 不 同 复 之 
间 的 边界 〈 或 噪声 )， 而 能 的 中 心 数 据点 则 通常 出 现在 密度 高 的 区 域 。 常 用 的 密度 方法 叫 作 
基于 密度 带 噪 声 的 空间 聚 类 应 用 算法 (DBSCAN), 它 用 特定 的 距离 阅 值 定义 两 个 数据 点 之 


































































































































































































(D 英文 为 “k-means++”。 一 一 译 者 注 
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间 的 可 连接 性 (因此 ， 该 方法 类 似 于 
个 数据 点 才 被 看 作 是 相互 连接 的 (属于 同 













































































围 之 内 








层次 算法 ， 见 第 3 章 )。 只 有 满足 一 定 的 紧密 程度 ， 丙 
个 能 ) 一 在 一 定 半径 范 
必须 高 于 某 个 阅 值 。 另 一 种 常用 方法 是 均值 漂移 (mean-shift)， 它 将 每 个 数据 点 划 归 到 在 
近邻 当中 密度 最 高 的 艇 。 由 于 用 核 密度 估计 方法 计算 密度 ， 时 间 开销 较 大 ， 均 值 漂移 通常 





， 近 邻 的 数量 





比 DBSCAN 或 质心 点 方法 速度 慢 。 密 度 聚 类 方法 的 主要 优点 在 于 ,方法 本 身 能 够 定义 任意 
形状 的 复 ， 能 够 决定 将 数据 集 分 成 几 个 复 最 合适 ， 而 不 必 将 复 的 数量 作为 参数 预先 设置 好 ， 


















































因而 它 适 合 处 理 秘 的 形状 和 数量 都 未 知 的 数据 集 。 
均值 漂移 
均值 漂移 是 一 种 非 参数 估计 算法 ， 它 寻找 数据 集 核 密度 函数 的 















































"m d Æ H 
fidi sn e RI 需要 与 其 


1 X (OMEO) 
/0 | 


局 
若 要 用 均值 漂移 实现 聚 类 ， 





















































(也 就 是 说 ， 其 他 数据 点 对 有 x 中 ) 有 微弱 影响 ， 可 以 忽略 )。K 为 满足 以 下 条 伯 
° | Kan ) =1 


. K(x®)>0,i €1,71, N 




















核 函 数 K(x" ) 最 常见 的 形式 有 : 








e. K(x* se 27 a 高 斯 内 核 
(1-0) jy x? xl 
e K aE 4 : Epanechnikov 内 核 
0 else 








部 最 大 值 可 以 看 作 是 {x””}，i = 1,…N 各 簇 的 中 心 ， 局 部 最 大 值 


的 

















局 部 最 大 值 。 所 找到 的 
数量 即 为 簇 的 数量 。 
近邻 的 密度 建立 起 关系 : 


i 























其 中 , h 表示 带宽 Cbandwith); 它 估计 的 是 近邻 的 半径 , 在 半径 范围 内 的 点 影响 密度 值 及 x) 
; F 的 核 函 数 : 


均值 漂移 算法 要 求 hx”) 取 得 最 大 值 ， 这 可 以 转换 为 如 下 等 式 ( 还 记得 吧 ， 在 函数 分 





析 里 ， 函 数 最 大 值 在 导数 为 0 时 取 到 ): 
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其 中 ， 天 为 核 密度 函数 天 的 导数 。 





因而 ， 对 下 面 这 个 等 式 进行 兴 代 ， 就 可 以 找到 特征 
ed 
h 
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u] f x O 对 应 的 局 部 最 大 位 置 。 














G) 
x? 
0) 0) U) 
X; —X +m(x ) 








tlc 7 j 
(D) (i) 
i -x | 





其 中 , m( x ) 叫 作 均 值 漂移 向 量 。 当 a 时 , 条 件 V/ (x)= 0 mx?) -0 满足 , 算法 收敛。 















































有 上 面 这 个 公式 做 基础 ， 我 们 现在 可 以 借助 图 2.1 解释 该 算法 。 第 0 次 迭代 时 ，1=0， 























































































































































原始 数据 点 x",1 EL …N (红色 ) 散布 于 数据 空间 。 计 算 均值 漂移 向 量 m(x?)=m(x 人 )， 
Ie N ， 为 移动 后 的 数据 点 打上 差 号 标记 ， [o FERRA 
以 跟踪 它们 在 算法 迭代 过 程 位 置 上 的 变动 。 第 1 [X mox 
次 迁 代 ，t=1， 用 前 面 提 到 的 公式 得 到 的 数据 集 第 1 次 迭代 
作为 这 一 次 迭代 所 使 用 的 数据 集 ， 计算 各 数据 点 M 局 部 最 和 密度 
的 位 置 ， 图 中 用 带 有 + 号 的 圈 圈 表 示 经 过 这 次 迭 
代 后 数据 点 所 处 位 置 。 
在 图 2.1 中 ,第 0 次 迭代 ， 原 始 数 据 集 用 带 
有 红色 9 差 号 的 圆圈 表示 ， 第 2、K 次 迭代 ， 数 
据点 (分 别 带 有 + 和 * 符 号 ) 向 由 蓝 色 方 块 标识 的 
局 部 最 大 密度 移动 。 
第 天 次 迭代 ,计算 得 到 新 数据 点 x0 , 1681, 
N， 上 图 用 带 * 的 圆圈 表示 。 x” 所 对 应 的 密度 函 * 
数 r(xP) 的 值 大 于 上 一 次 迭代 的 函数 值 ， 因为 lo 0o o9 XX o 
该 算法 的 目的 是 最 大 化 了 数值， 经 过 K Uf EM o 


后 ， 














原始 数据 集 对 应 "数据 点 x 中 1El…N,， 这 












































合理 使 用 该 方法 ， 需 注意 以 下 事项 。 
均值 漂移 算法 唯一 要 求 的 参数 是 带宽 




















0 彩 
Q Ji 








色 图 片 见 本 书 配套 PDF 文件 。 下 同 。 一 一 译 者 注 
文 为 “clearly associated with”。 一 一 译 者 注 























数据 点 收 剑 到 图 2-1 用 蓝 色 方块 标记 的 位 置 。 特 。 图 2.1 均 信 潭 移 算法 迁 代 过 程 ， 数 据点 的 变动 


征 向 量 x”,1 El 


, "NN 向 两 个 不 同 的 局 部 最 大 值 塌陷 ， 这 两 个 极 值 表示 两 个 艇 。 





h， 巧 妙 地 调试 该 参数 ， 才 能 得 到 理想 的 分 簇 结 
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果 。 从 实际 情况 来 看 ，h 太 小 ， 得 到 的 复数 量 较 多 ， 而 h 太 大 ， 也 许 会 将 多 个 不 同 的 复合 
并 到 一 起 。 另 外 ， 还 要 注意 ， 如 果 特 征 向 量 的 维度 d 很 大 ， 均 值 漂移 算法 也 许 得 到 的 结 
较 差 ， 因 为 空间 维度 高 ， 相 应 地 局 部 最 大 值 的 数量 也 很 多 ， 迭 代 函 数 可 能 收敛 得 过 快 。 


















































2.1.4 层次 方法 























层次 方法 也 叫 作 基于 连接 性 Cconnectivity-based) 的 聚 类 ， 它 根据 某 种 距离 度量 方法 ， 





选取 具有 满足 相似 标准 的 元 素 形 成 禾 . 距离 较 近 的 元 素 聚集 在 同一 个 簇 ， 











而 距离 较 远 的 元 


素 分 到 不 同 的 徐 。 这 类 算法 又 可 分 为 两 种 :分割 肾 类 (divisive clustering) 和 合成 聚 类 


(agglomerative clustering)。 分 割 聚 类 ， 一 开始 将 整个 数据 集 分 到 一 个 簇 ， 
个 不 那么 相似 〈 距 离 稍 远 ) 的 得。 分 割 过 程 ， 得 到 的 每 一 部 分 再 次 分 割 ， 















































接着 将 其 分 到 两 
直到 每 个 数据 点 





自 成 一 禾 。 合 成 聚 类 是 最 常用 的 聚 类 方法 ， 它 从 小 处 着 眼 ， 首 先 将 每 个 数据 点 各 分 到 一 个 
久 。 然 后 ， 根 据 相 似 度 ， 将 这 些 和 饼 合并 ， 直 到 所 有 的 数据 点 都 被 分 到 同一 个 簇 。 这 两 种 方 



































法 通过 迭代 形成 了 位 于 不 同 层次 的 徐 ， 因 此 也 称 为 层次 聚 类 ， 参 见 图 2.2。 
种 表示 层次 的 方法 叫 作 树 状 图 (dendrogram)。 横 轴 表 示 数 据 集 的 数据 点 ， 




















顺便 提 一 下 ， 这 
纵 轴 表示 距离 。 

















每 条 水 平 线段 表示 一 个 艇 , 纵 轴 表示 哪些 元 素 或 饼 因 为 相似 而 合并 为 男 一 个 层次 较 高 的 簇 。 

















Kl 2.2 


图 2.2, 合成 聚 类 方法 ， 一 开始 簇 的 数量 跟 数 据点 的 数量 一 样 多 ， 最 终 得 到 














的 是 一 个 包罗 所 有 























数据 点 的 簇 。 反 之 ， 分 割 聚 类 方法 ， 一 开始 只 有 一 个 艇 ,结束 时 得 到 的 每 个 艇 ; 




















\ 包 含 一 个 数据 点 。 








我 们 需要 使 用 特定 标准 来 终止 合成 /分 割 策略 ， 从 而 得 到 最 终 的 分 簇 结果 。 我 们 用 距离 
标准 来 指定 两 个 簇 无 法 合成 一 个 簇 的 最 大 距离 ， 用 簇 数 量 标 准 来 指定 停止 层次 聚 类 算法 继 
































续 合并 或 分 割 簇 的 最 大 禾 数 量 。 
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合成 方法 的 一 种 算法 描述 如 下 。 























(1) 将 数据 集 { x”}, i€ LN 的 每 个 元 素 i 划分 到 不 同 的 久 中 ,使 得 各 个 元 素 自 成 一 簇 。 
(2) 计算 所 有 簇 两 两 之 间 的 距离 ， 将 距离 最 近 的 两 个 艇 合并 为 一 个 艇 ， 簇 的 总 数 减 1。 
G) 计算 新 得 到 的 艇 和 其 他 簇 之 间 的 距离 。 

(4) 重复 步骤 (2) 和 3)， 直 到 得 到 一 个 包含 所 及 TS TOR TR 



















































































FE Cl 和 C2 之 间 的 距离 d(C1,C2)， 实 际 计算 时 ， 用 两 个 数据 点 cl1 ECl，c2E C2 之 间 
的 距离 来 代替 。 对 于 包含 多 个 数据 点 的 艇 ， 有 必要 根据 某 种 标准 选择 数据 点 来 计算 距离 。 
C1 和 C2 两 个 艇 之 间 常 用 的 链接 标准 如 下 。 

































































o 单 链接 (single linkage): C1 中 的 任意 元 素 和 C2 中 的 任意 元 素 之 间 的 最 小 距离 表示 为 : 








d(C1,C2) = min fd (cl,c2):cle Cl,c2e C2] 








。 全 链接 (complete linkage): Cl 中 的 任意 元 素 和 C2 中 的 任意 元 素 之 间 的 最 大 距离 
表示 为 : 





d (C1,C2) = max {d (cl,c2): cl e CL c2 C2} 
除权 配对 法 CUPGMAO 或 均 链 接 (average linkage): Cl 中 的 任意 元 素 和 C2 中 的 任意 
元 素 之 间 的 平均 距离 表示 为 4(CL,C2)= Y; d(cl,c2)， Erf, |Nal Ns| 分 别 


Na N. cleClc2eC2 


























^j Cl. C2 中 元 素 的 数量 。 














。 Ward 算法 : 它 将 不 会 增加 异 质 性 (heterogeneity) 的 复合 并 。 它 的 目标 是 ， 在 最 小 
化 增加 variation measure 的 前 提 下 ， 合 并 Cl 和 C2 PAS. variation measure 叫 作 
合并 代价 ， 用 A(C1,C2) 表 示 。 对 于 该 算法 ， 距 离 蔡 换 为 合并 代价 ， 其 公式 如 下 : 


A(CLC2)= NaNa aS dpud c2 
Na cleCl AN， c2eC2 


Nat Na 
HR, [Nh IN AA Cl C2 中 元 素 的 数量 。 













































































Ha He 

















实现 层次 聚 类 算法 ，d(clc2) 有 不 同 的 度量 方法 ， 最 常用 的 是 欧 氏 距离 : 


d (cl,c2) 2 [$ (cl, - c2, 


i 








请 注意 层次 聚 类 方法 从 时 间 方 面 来 讲 不 是 非常 高 效 ， 因 此 不 适合 大 型 数据 集聚 类 。 并 






































， 为 存在 错误 的 数据 点 〈 异 常 值 ) 聚 关 ， 鲁 棒 性 不 好 ， 它 也 许 会 误 把 几 个 秘 合 j 











METH o 
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[0,10], Ee rn 
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聚 类 方法 的 训练 和 对 比 





























我 们 生成 一 个 数据 集 ， 比 较 前 面 介绍 的 几 种 聚 类 方法 。 我们 从 均值 为 yw 
3 1 
1 4 



































图 像 。 








y 











我 们 用 NumPy 库 生 成 数据 点 ， 用 matplotlib 库 绘制 


from matplotlib import pyplot as plt 

import numpy as np 

np.random.seed(4711) # for repeatability 

cl = np.random.multivariate normal([10, 0], [I[3, 1], [1, 41], 
size-[100,]) 

11 - np.zeros (100) 

12 - np.ones(100) 

c2 = np.random.multivariate normal([O, 10], [I[3, 1], [1, 41], 
size-[100,]) 

#add noise: 

np.random.seed(1) 4 for repeatability 

noiselx - np.random.normal(0,2,100) 

noisely - np.random.normal(0,8,100) 

noise2 = np.random.normal(0,8,100) 

c1[:,0] += noiselx 

c1[:,1] += noisely 

c2[:,1] += noise2 


fig = plt.figure(figsize-(20,15)) 

ax = fig.add subplot(111) 

ax.set xlabel('x',fontsize-30) 

ax.set ylabel('y',fontsize-30) 
fig.suptitle('classes',fontsize-30) 

labels - np.concatenate((11,12),) 

X = np.concatenate((c1l, c2),) 

PP1L= ax.scatter(c1[:,0], c1[:,1],cmapz'prism',s-50,color-z'r') 
PP2= ax.scatter(c2[:,0], c2[:,1],cmapz'prism',s-50,color-z'g') 
ax.legend((ppl,pp2),('class 1', 'class2'),fontsize-35) 
fig.savefig('classes.png') 


Jum. 随机 选取 数据 点 形成 数据 集 


[10,0] 和 j= 








o 





我 们 为 两 个 类 别 分 别 添加 了 服从 正 态 分 布 的 噪音 ， 使 例子 看 起 来 更 加 真实 。 结 果 如 
图 2.3 所 示 。 
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2.1 





classes 


x 





... 


class1 
class2 














图 2.3 














E Meg 
! 聚 类 方法 ， 











我 们 用 sklearn 和 scipy 库 实 现 几 





import numpy as np 


from sklearn import mixture 


from 
from 


from sklearn.cluster import KMeans 


from sklearn.cluster import MeanShift 


from matplotlib import pyplot as plt 


fig.clf()#reset plt 


fig, ((axisl, axis2), (axis3, axis4)) 


sharey-'row') 


#k-means 


kmeans KMeans (n_clusters=2) 
kmeans. fit (X) 
pred kmeans 


kmeans.labels 


处 


一 六 





图 


仍 有 


含 噪声 、 服 从 正 态 分 布 的 两 个 类 别 





scipy.cluster.hierarchy import linkage 
scipy.cluster.hierarchy import fcluster 


H matplotlib JÆ: 


= plt.subplots (2, 2, 


聚 类 算法 47 


Sharex-'col', 


plt.scatter(X[:,0], X[:,1], c-kmeans.labels , cmapz'prism') # plot 


points with cluster dependent colors 


axisl.scatter(X[:,0], X[:,1], c-kmeans.labels , cmapz'prism') 


axisl.set ylabel('y',fontsize-40) 
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n_components=2)， 将 均值 漂移 算法 的 带宽 设置 为 7 (bandwidth=7)。 层 次 聚 类 算法 使 
] Ward 链接 来 定义 距离 ， 终 止 层次 算法 的 最 大 (Ward 链接 ) 距离 max_d， 我 们 设置 











为 1 




















] labels 属 
移 和 高 





出 图 


宽 和 
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axisl.set title('k-means',fontsize-20) 


iimean-shift 

ms = MeanShift(bandwidth-7) 

ms.fit(X) 

pred ms = ms.labels. 

axis2.scatter(X[:,0], X[:,1], c-pred ms, cmap-'prism') 
axis2.set title('mean-shift',fontsize-20) 


#gaussian mixture 

g = mixture.GMM(n components-2) 

g.fit(X) 

pred gmm - g.predict (X) 

axis3.scatter(X[:,0], X[:,1], c-pred gmm, cmap-'prism') 
axis3.set xlabel('x',fontsize-40) 

axis3.set ylabel('y',fontsize-40) 

axis3.set title('gaussian mixture',fontsize-20) 


#hierarchical 

# generate the linkage matrix 

Z = linkage(X, 'ward') 

max_d = 110 

pred h = fcluster(Z, max_d, criterion='distance') 
axis4.scatter(X[:,0], X[:,1], c=pred h, cmap='prism') 
axis4.set xlabel('x',fontsize-40) 

axis4.set title('hierarchical ward',fontsize-20) 
fig.set size inches(18.5,10.5) 

fig.savefig('comp clustering.png', dpi-100) 














上 述 代 码 中 ， 我 们 需要 为 上 均值 函数 和 高 斯 混合 模型 为 指定 簇 的 数量 (n_clusters=2、 

















H 






























































10. fcluster KAAM g^ 20s ex T DA es k 均值 和 均值 漂移 方法 的 聚 类 结果 
性 就 能 获取 到 ， 而 高 斯 混合 模型 则 需要 使 用 predict 函数 。k 均值 、 均 值 漂 
斯 混合 方法 用 fit 函数 训练 ， 而 层次 聚 类 算法 用 linkage 函数 训练 。 上 述 代码 输 
2.4。 


在 图 2.4 中 , 均值 漂移 和 层次 聚 类 方法 将 数据 分 成 两 个 艇 , 因此 我 们 选取 的 参数 值 Ct 
最 大 距离 ) sion 要 注意 的 是 ， 层 次 聚 类 方法 ， 我 们 是 根据 下 列 代码 生成 的 树 状 图 ， 















































































































































来 选择 最 大 距离 这 一 参数 的 取 值 : 
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我 们 通 




















过 truncate mode='lastp' 标 记 可 指定 将 最 后 多 少 次 合 
图 2.4 清楚 地 表明 ， 当 
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绘制 成 











图 (该 例 中 p=12)。 


E 离 在 100 到 135 之 间 时 ， 只 剩 下 两 个 艇 。 



























































from scipy.cluster.hierarchy import dendrogram 
fig = plt.figure(figsize-(20,15)) 
plt.title('Hierarchical Clustering Dendrogram'!,fontsize-30) 
plt.xlabel('data point index (or cluster index)',fontsize-30) 
plt.ylabel('distance (ward)',fontsize-30) 
dendrogram( 


) 


Z, 
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图 2.4 用 上 均值、 均值 漂移 、 高 斯 混合 模型 和 层次 算法 (Ward 链接 ) 对 两 类 数据 聚 类 结果 











truncate mode='lastp', # show only the last p merged clusters 


p=12, 


leaf_rotation=90., 


leaf font size-12., 


show contracted-True, 


fig.savefig('dendrogram.png') 


在 
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图 2.5 rp, Bü 
包含 的 数据 点 数 








Tr 

















这 





E 标 标签 (小 括号 中 的 数字 )， 表 示 最 后 











12 次 合并 之 前 ， 每 个 簇 所 
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层次 聚 类 树 状 图 











距离 〈Ward 链 接 ) 
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1 
数据 点 索引 (或 得 索 引 ) 


e 他 

【 
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DS 


图 2.5 最 后 12 次 合并 的 层次 聚 类 树 状 


除 高 斯 混合 模型 之 外 ， 其 他 3 种 算法 将 一 些 数据 点 分 错 复 ， 这 一 点 上 均值 和 层次 聚 类 
方法 表现 最 为 突出 。 上 述 结果 证 实 ， 高 斯 混合 模型 是 鲁 棒 性 最 好 的 方法 ， 因 为 数据 集 所 属 
的 分 布 跟 假 定 的 相同 ,为 了 评估 聚 类 方法 的 效果 , scikit-learn 提供 了 儿 种 量化 分 割 (partition) 
正确 性 的 方法 : v-measure、 完 整 性 和 同 质 性 。 这 些 评估 方法 要 用 到 每 个 数据 点 的 实际 类 别 ， 
因此 它们 也 被 称 为 外 部 验证 机 制 ， 它 们 需要 用 到 聚 类 时 用 不 到 的 额外 信息 。 同 质 性 h 
(homogeneity) 取 值 介 于 0~~1， 它 衡量 的 是 每 个 簇 是 否 只 包含 同一 类 别 的 数据 点 。 完 整 性 
c 的 取 值 同样 是 介 于 0~1， 它 衡量 的 是 同一 类 别 的 所 有 数据 点 是 否 划 分 到 同一 个 徐 之 中 。 
假定 聚 类 后 ， 将 每 个 数据 点 分 到 不 同 的 艇 每 个 簇 只 包含 一 个 类 别 ， 同 质 性 就 为 1， 但 是 
除非 每 个 类 别 只 包含 一 个 数据 点 ， 和 否则 完整 性 就 非常 低 ， 因 为 误 将 同一 类 别 的 数据 点 分 散 
到 多 个 簇 之 中 去 了 。 有 反之， 如果 聚 类 结果 将 分 属于 多 个 类 别 的 数据 点 划分 到 同一 艇 ， 当 然 
其 完整 性 为 1， 但 同 质 性 极 低 。 这 两 个 值 的 计算 公式 类 似 ， 如 下 所 示 : 

H(GCIC) ., &clo) 
H(C,) H(C) 
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给 定 聚 类 任务 ，H(CIO) 为 各 3 


类 别 








给 定 类 别 的 所 属 关 系 ，H(C 





H(C)73&2838A8:  H (C,) - — 





C; ml TR: 


COHERE: H(C|c)- 
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HOKIM: H(C)- -六 
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Cl d N 


DM r log 


p= el 





H(G |C)= 


CAN 


SS Aog 


p-l cz 








。 N, IRE c PRADY p 的 数据 点 数量 ，N, 指 类 别 为 的 数据 点 数量 ， NS TRES c 数 
据点 数量 
v-measure 为 同 质 性 和 完整 性 的 调和 平均 数 : 
A hc 
h«c 
这 些 评估 聚 类 质量 的 方法 ， 需 要 使 用 数据 点 真正 的 标签 ,但 实际 情况 往往 做 不 到 。 另 




















一 种 评估 方法 叫 作 轮廓 系数 (silhouette cofficient)， 它 仅 使 用 聚 类 
的 是 每 个 数据 点 与 同 复数 据点 和 其 他 复数 据点 之 间 的 术 














=i 


法 用 到 的 数据 。 它 计生 
日 似 度 。 如 果 从 平均 相似 度 来 看 ， 












































个 数据 点 与 同和 能 数据 点 比较 起 来 ， d 
这 时 ， 轮 廓 系数 接近 
义 它 的 公式 : 


~ 








他 艇 的 数据 点 更 相似 ， 那 么 各 艇 的 划分 训 
定 每 个 数据 点 i 和 下 面 两 个 量 


F-1)。 给 


4.O@) 为 每 个 数据 点 ;与 同 秘 各 数据 点 之 间 的 平均 








。 d, OARA 


d, (i) - d, (i) 
max(d,(i),d,., (Ù) 








s(i) = ， 总 轮廓 系数 


下 面 ， 我 们 用 sklearn (scikit-learn) if 





为 所 有 数 和 

















很 理想 ， 
我 们 来 定 








=E. 
FH , 








E 


离 ; 


点 i 跟 其 他 各 簇 数据 点 之 间 的 最 小 距离 。 


中 点 轮廓 系数 s(i) 的 均值 。 

















4 种 聚 类 














法 的 4 个 评价 指标 : 


from sklearn.metrics import homogeneity completeness v measure 
from sklearn.metrics import silhouette score 
res = homogeneity completeness v measure (labels,pred kmeans) 
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print 'kmeans measures, homogeneity:',res[0],' completeness:',res[1],' 
v-measure:',res[2],' silhouette score:',silhouette score (X,pred kmeans) 
res = homogeneity completeness v measure (labels,pred ms) 


print 'mean-shift measures, homogeneity:',res[0],' 


completeness: ' 


,res[1],' v-measure:',res[2],' silhouette 


score:',silhouette score (X,pred ms) 
res = homogeneity completeness v measure (labels,pred gmm) 
print 'gaussian mixture model measures, homogeneity: ',res[0],' 


completeness: ' 


,res[1],' v-measure:',res[2],' silhouette 


score:',silhouette score (X,pred gmm) 


res = homogeneity completeness v measure (labels,pred h) 


print 'hierarchical (ward) measures, homogeneity:',res[0],' 


completeness: ' 


,res[1],' v-measure:',res[2],' silhouette 


score:',silhouette score (X,pred h) 
The preceding code produces the following output: 
kmeans measures, homogeneity: 0.25910415428 completeness: 0.259403626429 


v-measure: O0. 


259253803872 silhouette score: 0.409469791511 


mean-shift measures, homogeneity: 0.657373750073 completeness: 


0.66215820464 


8 v-measure: 0.65975730345 silhouette score: 0.40117810244 


gaussian mixture model measures, homogeneity: 0.959531296098 


completeness: 
score: 0.3802 
hierarchical 


0.959600517797 v-measure: 0.959565905699 silhouette 
55218681 
(ward) measures, homogeneity: 0.302367273976 completeness: 


0.359334499592 v-measure: 0.32839867574 silhouette score: 
0.356446705251 























跟 我 们 前 面 对 4 类 算法 聚 类 图 分 析 一 致 ， 高 斯 混合 模型 同 质 性 、 完 整 性 和 v-measure 





























值 最 高 〈 接 近 于 1); 
方法 较 差 ( 约 为 0.3 
































DH 

















均值 漂移 算法 各 项 评价 指标 还 算 过 得 去 AW 0.5); 而 均值 和 层次 
)。 相 反 ， 这 几 种 方法 的 总 轮 廊 系数 都 很 理想 〈0.35$ 一 0.41)， 意 思 是 最 



















































































终 得 到 的 艇 ， 定 义 是 比较 合理 的 。 





2.2 降 维 














降 维 也 称 作 特 征 抽取 ， 是 指 将 高 维 数据 空间 转换 为 低 维 的 数据 空间 的 操作 。 降 维 得 到 








的 子 空 间 应 该 仅 包 含 
操作 采用 多 种 技术 ， 











VS 

















与 原始 数据 最 相关 的 信息 ， 降 维 技术 分 为 线性 和 非 线 性 两 大 类 。 降 维 
从 大 型 数据 集 抽 取 最 相关 信息 ， 降 低 复杂 度 ， 同 时 保留 最 相关 的 信息 。 




















最 著名 的 降 维 算法 主 成 分 分 析 PCA) 将 原始 数据 以 线性 形式 映射 到 维度 互 不 相关 的 
子 空间 。 我 们 接 来 下 就 介绍 这 种 降 维 算法 。 这 一 节 的 代码 IPython 版 和 纯 Python 版 已 放 到 


作者 GitHub 主页 图 
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书 文件 夹 : https;//github.com/ai2010/machine learning for the web/tree/ 


Sub A MIRE Ey tic JA SH com) FF 2s 


iml 





ERRIN 


master/chapter 2/. 


主 成 分 分 析 (PCA ) 





主 成 分 分 析 算 法 由 





在 识别 数据 集 相关 信息 所 在 的 子 空间 。 实 际 J 





的 数据 点 存在 相关 性 , 因此 PCA 寻找 的 是 没有 相关 性 


例如 ,汽车 行驶 轨迹 可 以 用 一 系列 变量 来 





表示 的 位 置 、 用 离开 给 定点 多 少 米 或 英里 表示 的 位 置 。 
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上 ， 由 于 某 些 数据 维度 


E、 数 据 不 同 的 维度 , 这 样 的 维度 很 少 。 








述 ， 比 如 




































































维度 。 也 就 是 说 ， 对 于 月 


维 操作 ， 因 为 不 同 的 速度 变量 或 位 置 变量 给 出 的 
































可 以 由 两 个 不 相关 的 维度 组 成 (速度 变量 和 位 置 变 
量 )。PCA 不 仅 寻找 不 相关 变量 ， 还 寻找 方差 最 大 的 
H km/h 和 m/s 表示 的 速度 ， 



































该 算法 选择 方差 较 大 的 变量 ， 这 两 种 速度 表示 之 间 
的 关系 为 velocity[km/h]=3.6*velocity[my/s], 函数 图 像 
到 2.6 〈 表 示 这 种 函数 关系 的 直线 更 靠近 km/h 轴 ， 因 








见 图 





























为 1km/h=3.6m/s )。 速 度 在 km/h # 























比 起 在 m/s 4 
图 2.6 为 



































zx 
而 m/s 5$ 


= 




















上 的 更 加 分 散 )。 
] m/s 和 km/h 表示 的 速度 两 者 之 间 为 


上 的 投影 (projection) 





生 函 数 关 系数 据点 在 km 轴 

















上 的 投影 方差 较 大 ， 


上 的 投影 方差 较 小 。 沿 直线 velocity 
[km/h]= 3.6*velocity[my/s] 分 布 的 数据 点 的 方差 要 大 于 两 条 如 























A T EXIT TES 




















大 化 的 不 相关 维度 等 价 于 按 以 下 步 又 进行 计生 























。 数据 集 的 均值 : uo vi 


。 均值 发 生 漂移 后 得 至 








。 调整 后 的 数据 全 








G@ 公式 大 括号 里 面 的 系数 为 /N。 一 一 译 者 注 





f 
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s Xen] 


N 


























km/h 


»—— ———4 








] km/h 或 m/s 表示 的 速度 、 用 经 纬度 
显然 ， 我 们 可 以 对 这 些 维度 i 
cB] (相关 变量 )， 因 此 相应 的 子 空间 

















行 降 














2.6 





























| 的 数据 集 : uO =x” -ui el, N 
其 中 每 个 特征 向 量 的 分 量 w? 除 以 标准 差 :， uP Io, u? ， 


/2 
(D 





| 








Zi 


和 热 ， 现 在 我 们 可 以 详细 讨论 这 种 方法 及 其 特点 。 不 难看 





o E, ERITAR 














m/s 





m/s 和 km/h 表示 的 速度 
闻 的 线性 函数 关系 
上 投影 的 方差 。 





E 








出 ， 寻 找 方差 最 


Er]& x? , El, +N: 
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。 样本 点 的 协 方差 短 阵 ， = P(w) uo 


。 天 个 最 大 的 特征 值 (eigenvalue) 4 ，iEl…F， 以 及 相应 的 特征 向 量 〈eigenvector) 
WO PEL. 

。 映射 到 由 个 特征 向 量 组 成 的 子 空间 的 特征 向 量 v? 2 Wu? e R* , Rep, Wepw pw] 
e RW 是 NN 行列 的 特征 向 量 矩 阵 。 

最 终 ， 特 征 的 向 量 〈 主 成 分 ) vv 位 于 子 空间 R*， 它 仍然 保留 着 
(和 信息 )。 

处 理 高 维 数据 集 ， 比 如 脸 部 识别 任务 ，PCA 降 维 技术 非常 有 用 。 对 于 脸 部 识别 任务 ， 
需要 比 对 输入 的 图 像 和 数据 库 中 的 其 他 图 像 ， 以 找到 正确 的 人 。 用 PCA 实现 的 Eigenfaces 
《特征 脸 ) 应 用 ， 利 用 每 张 图 像 中 大 量 像素 是 相关 的 这 一 特点 实现 人 脸 识 别 。 例 如 ， 图 像 背 
景 处 的 像素 都 是 相关 《相同 ) 的 ， 因 此 可 以 用 降 维 方法 ， 在 维度 更 少 的 子 空 间 比 较 图 像 ， 
可 以 更 快 地 给 出 准确 结果 。 作 者 的 GitHub 主页 放 了 Eigenfaces 的 一 种 实现 方式 ， 详 见 
https://github.com/ai2010/eigenfaces 。 



















































































原始 向 量 的 最 大 方差 


OBa 




































































































































































PCA 示例 

下 面 这 个 例子 讲解 PCA 和 NumPy 库 的 用 法 ， 后 者 我 们 在 第 1 章 介 绍 过 。 我 们 的 任务 
是 识别 二 维 数据 集 的 主 成 分 。 该 数据 集中 的 数据 点 沿 直线 y=2x 分 布 , 其 中 包含 一 些 随机 ( 正 
态 分 布 ) 添加 的 噪声 。 数 据 集 及 其 图 像 〈 见 图 2.7) 用 以 下 代码 生成 : 


























M 






























































import numpy as np 
from matplotlib import pyplot as plt 


#line y = 2*x 

x = np.arange(1,101,1).astype(float) 
y = 2*np.arange(1,101,1).astype (float) 
#add noise 

noise - np.random.normal(0, 10, 100) 
y += noise 


fig = plt.figure(figsize-(10,10)) 

#plot 

plt.plot(x,y,'ro') 

plit.axis([0,102, -20,220]) 

plt.quiver(60, 100,10-0, 20-0, scale units-'xy', scale-1) 
plt.arrow(60, 100,10-0, 20-0,head width-2.5, head length-2.5, fcz'k', 
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ec='k') 
plt.text(70, 110, r'$v^l$', fontsize-20) 

#save 

ax = fig.add subplot (111) 

ax.axis([0,102, -20,220]) 

ax.set xlabel('x',fontsize-40) 

ax.set ylabel('y',fontsize-40) 

fig.suptitle('2 dimensional dataset',fontsize-40) 
fig.savefig('pca data.png') 
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的 是 我 们 要 从 
















































































图 2.7 就 是 我 们 生成 的 数据 集 。 显 然 ， 数 据点 沿 一 定 方向 分 布 ， 它 对 应 
数据 中 抽取 的 主 成 分 V'。 
二 维 数据 集 
200 *.8 H 
a*n 
n D 
* n 
D 100 . 2 
: du x Š 
50 P i : 
ol*e . 
o 20 40 60 80 100 
X 
图 2.7 二 维 数据 集 。 主 成 分 的 v 方 向 用 箭头 表示 


该 算法 计算 二 维 数据 集 的 均值 和 均值 漂移 后 得 到 数据 集 的 均值 ， 然 后 用 相应 的 标准 差 





调整 数据 的 取 值 范围 : 





mean x = np.mean (x) 
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mean y = np.mean(y) 

u x = (x- mean x) /np.std(x) 
u y = (y-mean y) /np.std(y) 
sigma = np.cov([u x,u y]) 














RT 


为 了 抽取 主 成 分 ， 我 们 需要 计算 特征 值 和 特征 向 量 ， 选 择 特征 值 最 大 的 特征 向 












































eig vals, eig vecs = np.linalg.eig(sigma) 
eig pairs = [(np.abs(eig vals[i]), eig vecs[:,i]) 
for i in range(len(eig vals))] 


eig pairs.sort() 

eig pairs.reverse() 

vl = eig pairs[0][1] 

print v1 

array([ 0.70710678, 0.70710678] 














H 

















为 了 确认 主 成 分 是 否 按照 预期 沿 直线 分 布 ， 我 们 需要 将 其 坐标 调整 回去 : 














了 上 























x v1 v1[0]*np.std(x)-*mean x 


y v1 vl1[1]*np.std(y)-*mean y 
print 'slope:',(y vl-1)/(x v1-1) 


slope: 2.03082418796 

















计算 得 到 斜率 约 为 2, 这 跟 我 们 一 开始 选取 的 数值 一 致 。scikit-learn 库 提供 了 一 种 快捷 
的 PCA 算法 实现 ， 无 须 调整 数据 取 值 范围 或 移动 均值 。 使 用 skleam 模块 之 前 ， 我 们 需要 
将 调整 后 的 数据 转换 为 矩阵 格式 ， 和 矩阵 的 每 一 行为 用 x、y 坐标 表示 的 数据 点 : 

































































X = np.array([u x,u y]) 
X= X.T 

print X.shape 

(100,2) 











现在 可 以 运行 PCA 模块 ， 指 定 目标 主 成 分 数量 〈 该 例 中 我 们 将 其 设置 为 D: 











Ius 


from sklearn.decomposition import PCA 
pca = PCA(n components-1) 

pca.fit(X) 

vl sklearn - pca.components [0] 

print vl sklearn 

[ 0.70710678 0.70710678] 

















用 这 种 方法 得 到 的 主 成 分 [ 0.70710678 0.70710678] 与 我 们 前 面 一 步 步 计 算得 到 的 完 
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全 相同 ， 因 此 直线 的 斜率 也 相同 。 现 在 ， 我 们 可 以 用 这 两 种 方法 将 数据 集 转 换 到 新 的 一 
维 空间 : 








#transform in reduced space 

X red sklearn = pca.fit transform(X) 

W = np.array(vl.reshape(2,1)) 

X red - W.T.dot(X.T) 

#check the reduced matrices are equal 

assert X red.T.all() == X red sklearn.all(), 'problem with the pca 


algorithm' 




















assert 断言 语句 没有 抛 出 异常 ， 因 此 两 种 方法 的 结果 完全 一 致 。 


2.3 奇异 值 分 解 (SVD) 

















该 方法 是 基于 定理 : AREE X dxN 可 以 分 解 为 














X -UXVT 














H 中 : 
。U 是 一 个 dxd 的 西 矩阵 。 
e 二 是 一 个 dxN 的 对 角 和 矩阵 ， 对 角 线 元 素 o; 叫 作 奇异 值 。 





















































e 是 一 个 NxN EHER. 
该 例 , 蕊 由 特征 向 量 xo27El…N 构成 ,其 中 x € R 表示 一 列 。 我 们 可 以 减少 每 个 特 
征 向 量 的 维 数 4， 去 近似 奇异 值 分 解 。 在 实际 操作 中 ， 我 们 只 考虑 最 大 的 奇异 值 c o, 



































iui 








t«d, [EG 


X «UE V/ ,U, (dxt),X, (txt), V^ (txN) 





Ra 


t 表示 降 维 后 得 到 的 空间 维度 ， 该 空间 也 就 是 特征 向 量 映射 到 的 空间 。 向 量 x2” 按 如 下 
的 公式 转换 到 新 空间 : 



































NT 
xe (29) UX,eR 




















RR, EELV 〈 而 不 是 天 ) 表示 在 1 维 空间 的 特征 向 量 。 
该 方法 与 PCA 非常 相似 ; 实际 上 ，scikit-learn 库 正 是 用 SVD 算法 来 实现 PCA。 
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2.4 小 结 









































本 章 详细 讨论 了 主要 的 聚 类 算法 。 我 们 实现 了 这 些 算 法 〈 用 scikitlearn) 并 比较 了 它 
们 结果 的 好 坏 。 我 们 还 讲解 和 实现 了 最 主要 的 降 维 技术 一 一 主 成 分 分 析 法 PCA )。 学 完 本 
章 ， 你 应 该 已 具备 用 Python 及 其 库 实现 无 监督 学 习 算法 ， 解 决 实际 问题 的 能 


在 下 一 章 中 ， 我 们 将 讨论 分 类 和 回归 这 两 类 有 监督 学 习 算 法 。 
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本 章 讨 论 最 常 








的 


口 

















归 和 分 类 技术 。 这 类 








Fab 


IAB 








H 











督学 习 算 法 指 的 是 

















分 类 和 回归 。 本 章 ， 我 们 会 





依次 讨论 线性 























支持 向 量 机 算法 。 我 们 将 
们 的 使 用 方法 。 














Ns 


前 言 部 分 

















也 




















H 





yin 


























有 监督 学 习 要 








L5 














本 章 最 后 ， 我 们 将 介绍 另 一 种 也 5 


H 
J 





来 处 








分 类 问题 的 。 我 们 现在 


3.1 模型 错误 评估 


我 们 前 面 讲 过 ， 用 训练 好 的 模型 去 预测 
能 力 ， 即 正确 预测 在 训练 数据 中 未 





念 : 输出 的 偏 














K y, 的 数据 点 x 中 ,如 果 用 不 同和 
而 方差 误差 (variance error) 是 





i75 (bias) 和 方差 (variance). 


Bp) 


指 对 于 

















新 数据 的 标签 ， 


虽然 它 不 是 专门 
四 集 标签 这 类 问题 上 常见 的 出 错 原因 


预测 


的 机 制 是 相同 的 。 通 常 而 言 ， 有 监 
回 
法 解决 一 个 分 类 问题 和 一 个 回 
标注 好 的 训 
的 参数 值 。 跟 之 前 一 样 ， 本 章 代 码 也 已 放 到 我 的 GitHub 主页 本 章 文 伯 
github.com/ai2010/machine learning for the web/tree/master/chapter 3/. 


以 实现 分 类 的 算法 〈 隐 马尔 可 夫 模 型 )， 
E 来 解释 这 些 方法 在 预测 数 和 

















归 、 朴 素 贝 叶 斯 、 决 策 树 和 

归 问 题 ， 以 帮助 你 理解 它 
练 集训 练 模型 ， 找 到 合适 
F} 夹 中 ， 地 址 是 https:// 



























































结果 的 质量 取决 于 模型 的 泛 化 








8 现 的 数据 的 能 力 。 该 问题 的 














究 文献 很 多 ,一 般 涉 及 两 个 概 




















凯 差 是 指 | 
| 练 集训 练 , 模型 就 会 有 1 











算法 的 销 





误 假 设 导致 的 错误 。 给 定 标签 























给 定数 据点 x ， 给 











AE 
典型 的 例子 ， 假 定 有 


R, 预测 结果 ?zs 将 总 
了 不 同 


是 不 同 于 。 
的 、 错 误 的 预测 标签 。 举 个 

















组 同心 加 








测 结果 越 接近 中 心 ， 模 型 偏差 和 方差 


| 
, 


Effe 














的 标签 值 〈《 实 际 标签 ) 位 了 


一 口 


























方差 和 偏差 较 低 的 模型 , 用 小 点 ( 见 图 








际 标签 )。1 








QD 同心 








员 


中 最 小 的 那 一 个 。 一 一 译 者 注 




















P 心 区 域 ， 如 图 3.1 Br. TW 








越 小 (图 3.1 左上 方位 置 )。 























他 3 种 情况 一 并 显示 如 下 。 

















3.1) 表示 的 预测 结 





























局 差 较 大 的 模型 ， 预 测 结果 远离 实际 标签 所 在 位 置 ， 而 方差 较 高 的 模型 





fir 


zi 








果 集 中 分 布 在 红心 "位 置 ( 实 














+， 预测 结 
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果 分 布 范 围 较 广 。 


标签 可 以 是 连续 型 或 离散 型 ， 分 别 对 应 回 
an ne 大 多 数 模型 适用 于 这 两 类 问 

。 下 文中 的 回归 和 分 类 这 两 个 词 指 同一 个 模 

. 更 加 正式 地 讲 ， 给 定 一 个 由 W 个 数据 点 组 
LEHRER A RD HAC AUS IB y ee 
1,…,N， 模 型 的 参数 为 0=0,;，0, |， 或 表示 
为 9,，jeE0,…, M-1， 并 且 ， 参 数 的 实际 估计 值 | 2 

















低 偏差 





(true parameter) 为 G6= 00, *…, Ou1,0;, jEO0, *…, 


M1， 那 么 模型 的 均 方 误差 (Mean Square Error, 






































MSE(0) = x py ) = 引 @- oj [(6 - EC |+(E(0)- 0) = Var(6) + Bias(0,0) 


t=1 





我 们 将 用 均 方 误差 这 一 评价 指标 来 评估 本 章 所 讲 算法 的 好 坏 。 我 们 现在 开始 讲解 广义 
线性 方法 。 


3.2 广义 线性 模型 








广义 线性 模型 是 一 类 模型 的 统称 ， 这 类 模型 尝试 寻找 M 个 使 标签 y, 和 特征 向 量 x" 形 
成 线性 关系 的 参数 0 j€0,--,M-l. W FATZ: 
y= Y f 0x? c e- h(x) e; Vie0, , N-1 
其 中 ，e, 指 模型 的 错误 。 算法 在 寻找 参数 值 时 , 尝试 最 小 化 由 代价 函数 (cost function?) 
所 定义 的 模型 的 错误 J: 















































123» i-em 


J 的 最 小 化 用 迭代 算法 批量 梯度 下 降 Cbatch gradient descent) 实现 : 





6, € 6, sam. Vje0,-, M -1 


i= 90 j 





CD XFA distortion function, loss function。 一 一 译 者 注 
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上 式 中 的 a 叫 作 学 习 速 率 (learning rate)， 它 是 收敛 速度 和 收敛 精度 之 间 的 折衷 。 另 一 
种 算法 叫 作 随机 梯度 下 降 (stochastic gradient descent)， 对 IE0，…, N-1 进行 迭代 : 

















0; «-0,*a 


才 于 每 个 训练 样 例 i， 更 新 9, ， 而 不 是 等 到 最 后 对 训练 集 全 部 样 例 的 梯度 加 总 后 再 更 


新 09。 随 机 梯度 下 降 算法 收敛 至 ,7 的 最 小 值 附近 ， 它 通常 比 批量 梯度 下 降 算法 收敛 速度 更 
快 ， 但 是 随机 梯度 下 降 最 后 得 到 的 结果 在 实际 参数 值 附近 波动 。 下 一 节 介绍 最 常用 的 模型 
hy C) 和 相应 的 代价 函数 J 


1. 线性 回归 
线性 回归 是 最 简单 的 回归 算法 ， 它 基于 以 下 模型 : 


Vj €0,.-, M -1 


» 









































































































































M- 
h [x9 a8, 0x? tx... D 0x ,vi e0,…,N—1 
j-0 











它 的 代价 函数 和 更 新 规则 如 下 : 


j= 





2. 上 岭 回 归 





岭 回归 (ridge regression) 也 叫 作 吉 洪 诺 夫 正则 化 《Tikhonov regularization)， 它 在 代价 
函数 了 中 增加 了 正则 项 : 


143 ; A M aj , 
J= 22e -h(x 5) «236 arch) ae, 





vj€0, =, M-1, 4 为 正则 化 参数 。 新 增 的 正则 项 ， 其 功能 是 在 所 有 可 能 的 参数 中 ， 增 
加 一 组 特定 参数 的 权重 ， 惩罚 所 有 值 不 等 于 0 的 参数 9 ， 使 得 最 终 得 到 的 参数 9 收缩 


Cshrink) 于 0， 这 样 做 可 以 降低 参数 的 方差 ,但 是 引 入 了 偏差 。 线 性 回归 的 参数 用 带 上 标 
的 1 表示 ， 岭 回归 的 参数 与 线性 回归 的 参数 ， 两 者 之 间 的 关系 表示 如 下 : 

Pm 0; 

7 1+4 
显而易见 ，4 的 值 越 大 ， 岭 回归 参数 越 向 0 收缩 。 











































































































© 原文 为 “instead of waiting to sum over the entire training set”。 一 一 译 者 注 
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3， 套 索 回 归 


套 索 回归 (lasso regression) 算法 与 岭 回归 类 似 ， 唯 一 的 区 别 是 ， 套 索 回 归 的 正则 项 为 
所 有 参数 绝对 值 之 和 ; 





























753 o ea A) itm 


Vje0,.,M -1 
4. 对 数 几 率 回 归 


对 数 几 率 回 归 (logistic regression) 算法 适用 于 (二 值 ) 分 类 问题 。 因 此 ， 我 们 把 标签 
定义 为 ye0,1。 模 型 用 以 下 对 数 几 率 函 数 来 表示 : 






































h, (x? ) - 


它 的 代价 函数 定义 如 下 : 


J s log(/, on ))+ (1— y,)log(1- 5, (x?)) 








更 新 权重 的 规则 ， 其 形式 与 线性 回归 的 相同 (但 模型 的 定义 及 不同): 


oJ i i ， 
367^ = h (x?) vj e0,- M -1 

















注意 ,数据 点 p WAWER KAO 是 一 个 介 于 0 到 1 之 间 的 连续 型 值 。 因 此 ， 为 了 预 
测 类 别 标签 ， 我 们 通常 将 h(x”)=0.5 设置 为 闵 值 ， 阐 值 跟 标签 对 应 关系 如 下 : 





























z05 1 


h (x)= 
gm e 0 














对 数 几率 回归 算法 用 一 对 多 Cone versus all) 或 一 对 一 技术 Cone versus one)， 可 实现 
多 个 类 别 的 分 类 问题 。 一 对 多 方法 ， 包 含 玉 个 类 别 的 分 类 问题 ， 可 通过 训练 玉 个 对 数 几 率 
回归 模型 来 解决 。 处 理 类 别 j 的 模型 ， 将 类 别 j 看 作为 +1， 剩 余 类 别 看 作 0?; 一 对 一 方法 ， 


、 E 洒 日 i|3 d m K(K -1 i TA 7T 
需要 为 任意 两 个 类 别 训练 一 个 模型 Gg CD e at. 

































































(D 一 对 多 方法 ， 用 天 个 模型 处 理 被 预测 数据 ， 得 到 天 个 结果 之 后 ， 从 中 选取 预测 值 最 高 的 作为 被 预测 数据 的 类 别 。 一 对 一 方 
法 ， 根 据 少数 服从 多 数 的 原则 ， y ED 个 模型 的 预测 结果 中 选择 出 现 次 数 最 多 的 类 别 ， 作 为 最 终 的 类 别 。 译 者 注 
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3.21. 广义 线性 模型 的 概率 解释 
前 面 介绍 了 广义 线性 模型 ， 现 在 我 们 来 寻找 满足 如 下 关系 的 参数 9, : 


M-1 
y-2,0x)*e-h "E 02 e, Vie0,-,N-1 
j=0 


对 于 线性 回归 ， 我 们 可 以 假定 6 服从 均值 为 0、 方 差 为 P WES 





















































pe) o re AM 
: í te) 
p(y > UG E 
因而 ， 系 统 的 总 似 然 度 可 以 表示 为 : 
i "NET 























对 数 几率 回归 算法 ， 我 们 假定 对 数 几率 函数 自身 就 是 概率 : 














P(», -ie;ej- h (x?) 
P(y o[x^; 0)= 1- A, (x?) 
么 ， 似 然 度 可 以 表示 为 : 
A 
i-0 i-0 





分 布 ， 其 概率 








上 述 两 种 情况 ， 最 大 化 似 然 度 等 价 于 最 小 化 代价 函数 ， 因 此 用 相同 的 梯度 下 降 方法 求解 。 


3.3. k 近邻 














k 近邻 (k-nearest neighbours, KNN) 是 s 的 分 类 (或 回归 ) 方法 。 给 定 一 
组 特征 向 量 x%iE1…, N 及 相应 的 标签 y, 待 分 类 的 数据 点 K M K PENNEL, sem 
K. k 近邻 算法 将 近邻 的 多 个 标签 中 出 现 次 数 最 多 的 分 配给 O 。 寻 找 近邻 时 ， 常 用 的 距离 






































度量 方法 有 : 











:M-1 
e 欧 氏 距离 CEuclidean): (za 


j-0 
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M-l 


Q) 0 
ys Xj 


j-0 


e 曼哈顿 距离 (Manhattan): 








M-1 


« 闵 氏 距离 (Minkowski): BB xd 











l/q 
| (如 果 gqg=2， 即 为 欧 氏 距离 ) 


ge 



































若是 回归 问题 计算 y,， 需 要 将 近邻 出 现 次 数 最 多 的 标签 y, KEL … KERER 
标签 的 均值 。 最 简单 的 均值 〈 或 大 多 数 情况 对 应 哪个 标签 ) 形式 是 各 近邻 的 权重 相同 ， 因 
此 每 个 数据 点 , 不 管 它 与 x” 实际 距离 有 多 近 , 重要 程度 相同 。 然而 , 也 可 以 使 用 近邻 与 x 中 
之 间 的 距离 倒 的 加 权 平 均值 。 


3.3 朴素 贝 叶 斯 

























































































朴素 贝 叶 斯 (Naive Bayes) 分 类 算法 是 基于 贝 叶 斯 概率 定理 和 各 特征 之 间 相 互 独立 的 
假设 。 给 定 闫 个 特征 x ，iE0,…, M-1 和 一 组 标签 〈 类 别 ) ye0, …, K-1， 根 据 贝 叶 斯 定 
H, WE ce ERER x) 的 概率 为 : 























Pleat |» = c)PQ -c) 
P(x, Xy 4) 





P(y = csiga) 














。 P(x, Xu PEAME fü; 

。 P(c| xy xy 1) 为 后 验 分 布 ; 

。 PQy=c) 为 前 验 分 布 ; 

。 P(X, Xy HEEE (evidence)。 

预测 特征 x,，iE0, …, M-1 所 属 的 类 别 ， 即 是 求 取 使 得 概率 p 取得 最 大 值 的 标签 : 



































P-arg ,max P(y A ) 








然而 ， 上 面 这 个 式 子 无 法 直接 计算 。 因 此 ， 需 要 做 出 假设 。 























用 条 件 概率 公式 P(A] B) = ， 我 们 可 以 将 前 面 那 个 公式 的 分 子 写成 ; 











P(9, -> Xy. |» c)P(y-zc)- P(y 2 e)P(x, |» - c)pOs, Xu |» -6,X)- 
Py sdb |y = AP Sed PO, axe rex xs 
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PO - c)P(x, |y = oP [v 2 6 3)) pni |y 7 62x, x2) 


我 们 的 假设 是 ,给 定 标 签 c, 各 个 特征 x 是 之 间 相 互 独立 的 (例如 ， 要 计算 x 标签 为 c 的 概 
率 ， 只 要 有 标签 c 的 知识 就 尼 够 了 ， 特征 x 的 相关 知识 是 多 余 的 ,P(x ly» o) =P (x pc x,?: 












































M-1 
P(v-9-]^(sb--) 
j-0 
在 该 假设 下 ，) 为 标签 c 的 概率 等 于 : 
M-1 
P(x, |y =c) Po 2 1 
P(y zo A (D 
Y II^(xr-i)Po 20M 
i-0 j=0 





























其 中 , 分 子 中 +1 和 分 母 中 的 M 为 常数 项 ， 使 用 它们 是 为 了 避免 出 现 0/0 情况 〈 拉 普 拉 








由 于 (1) 式 中 的 分 母 对 于 所 有 的 标签 都 是 相同 的 《将 标签 所 有 可 能 情况 加 起 来 )， 因 
最 终 类 别 的 概率 ， 是 通过 最 大 化 中 Oo 式 的 分 子 得 到 的 : 




















M-1 
p-arg max ] | P(x,|v2 e) P(y 2 o (2) 
d 




















对 于 我 们 一 直 使 用 的 训练 集 x”，iE0,…，N-1， 其 中 x en" CM 个 特征 ) 和 相应 的 

标签 集 y,，iE0, …, N1, PO=a) 的 概率 是 通过 计算 训练 样 例 中 ， 标 签 为 c 的 样 例 的 频数 ， 
N 

BI Po =o) = 。 条 件 概率 Px, by=i) 则 需要 根据 某 种 分 布 进行 计算 。 我 们 接 下 来 讨论 两 


种 模型 : 多 项 式 朴 素 贝 叶 斯 (Multinomial Naive Bayes) 和 高 斯 朴素 贝 叶 斯 (Gaussian Naive 
Bayes). 


3.3.1 EJ X Hr 


假定 我 们 想 判 断 一 封 由 一 组 词 Yo = ss ot.) 组 成 的 邮件 s 是 否 是 垃圾 邮件 ， 如 果 
是 则 为 1， 不 是 为 0， 因 此 yE0,1。M 为 词汇 量 (特征 数 ) 多 少 。 一 共有 w, 个 词 ，1E0, ..， 
M-1 个 词 ，N 个 训练 样 例 ( 邮 件 )。 

对 于 每 一 封 标签 为 yy 的 邮件 x xO, jE, .., M-1 表示 单词 j 出 现在 训练 样 例 i 中 
的 次 数 。 例 如 ，x9) 表示 单词 1 或 w 出 现在 第 3 封 邮件 中 的 次 数 。 我 们 采用 多 项 式 分 布 
的 似 然 度 : 
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j=0 


上 式 ， 前 面 的 归 一 化 常数 (normalization constant) 可 以 省 略 ， 因 为 它们 不 依赖 于 标签 
y» 所 以 不 会 影响 arg max 运算 符 的 运算 结果 。 重 要 的 是 计算 单词 w 在 整个 训练 集 上 的 概率 : 





























2 i0 7 iy 
p(w|y)= x 
Y x5 N, 
t Diy 
t-0 i-0 





ER, N, 表示 标签 为 » 的 单词 的 出 现 次 数 。 N, 表示 训练 集中 标签 为 》 的 邮件 数 。 


上 式 相当 于 计算 OD. 式 中 的 PE, pM PC, lp=o， 也 就 是 计算 多 项 式 分 布 的 似 然 度 。 由 于 
概率 的 指数 运算 结果 很 小 ， 可 能 会 导致 数值 下 溢 ， 因 此 算法 最 后 一 步 Q0 常 采用 对 数 概率 形式 : 



























































M-1 
p arg maxlogP(y) — P3 x" logP(w, D») 
: e i 


3.3.2 ”高 斯 朴素 贝 叶 斯 


特征 向 量 x" 若 取 连续 值 ， 则 可 以 使 用 高 斯 朴素 贝 叶 斯 。 例 如 ， 我 们 想 将 图 像 分 为 K 
个 类 别 ， 每 个 特征 j 为 一 个 像素 。x® 表示 训练 集 第 i 张 图 像 的 第 j 个 像素 。 训 练 集 共 有 N 
张 图 像 ， 其 类 别 为 y, iE 0,…, N-1。 给 定 一 张 用 像素 x, sns xy | 表示 的 、 未 标记 的 图 像 ， 
公式 OD 中 的 P(x) [y 87 













































































p(x |y=i)= 











其 中 ， 均 值 为 
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决策 树 


该 类 算法 从 特征 值 中 学 习 ， 生 成 一 套 简单 的 规则 来 分 割 训练 集 ， 预 测 未 知 的 标签 。 例 如 ， 
根据 温度、 风力、 气温 和 气压 的 值 ， 判 断 今天 是 否 需要 带 爹 ， 这 是 一 个 分 类 问题 。 根 据 过 去 


100 天 的 数据 ， 我 们 可 以 给 出 下 面 这 样 一 个 决策 树 示 例 图 。 样 表 见 表 3.1 (1mbar=100Pa): 


3.4 










































































表 3.1 
湿度 /% 气压 /mbar 风力 /(Kknmy/h) 气温 /CC E 
56 1021 5 21 是 
65 1018 3 18 1 
80 1020 10 17 ER 
81 1015 11 20 是 
在 图 3.2 中 ， 小 矩形 中 的 数字 表示 有 多 少 天 带 企 ， 椭 圆 中 的 数字 表示 有 多 少 天 没 带 伞 。 





















































湿度 >50% 
[66] GD 


A 


气压 >1020mbar 


气压 =>1015mbar 
C125 


























3.2. ”根据 过 去 100 天 的 数据 记录 ， 预 测 是 否 需要 带 伞 的 决策 树 
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决策 树 有 两 种 类 型 的 节点 ; 

CD 决策 节点 ， 根 据 决策 切 分 数据 集 ， 得 到 两 个 (或 更 多 ) 分 梳 ; 

(2) 叶子 节点 ， 数 据 完成 分 类 后 得 到 这 类 节点 。 

通常 用 最 大 决策 节点 数量 ( 树 的 深度 ) 或 继续 切 分 所 需 最 少数 据点 数量 (常用 2 到 5) 作为 
退出 机 制 。 决 策 树 学 习 的 问题 是 ， 如 何在 所 有 可 能 的 节点 组 合 中 ,构造 一 棵 最 佳 的 树 ， 也 就 是 估 
计 所 要 采用 的 规则 的 层次 ( 换 句 话说 , 第 1 个 节点 用 湿度 还 是 气温 ,以 及 后 续 节点 选用 什么 规则 )。 
更 正式 地 讲 ， 给 定 训练 集 xm,iE1…*N， 其 中 xo e R”， 标 签 为 y。 我 们 需要 找 出 在 节点 能 够 
为 数据 $ 做 出 最 佳 切 分 的 规则 。 如 果 选 定 的 特征 /为 连续 值 ， 每 条 切 分 规则 用 特征 ; RIAL 6] 表 
qs Ha? ed. KSAP (WW 让; Ex? 2r ORIS 01, j). Fn. El s N。 节 点 
的 最 佳 切 分 规则 (44,g) 对 应 的 是 7 函数 的 最 小 值 ， 也 就 是 最 小 不 纯度 。7 函数 用 来 度量 切 分 规则 
在 多 大 程度 上 能 够 将 数据 分 到 标签 不 同 的 分 枝 中 去 (也 就 是 说 , 每 枝 数据 的 标签 混合 程度 最 小 ): 


n 






















































































































































































cel 






























































jo Ds ri 
Ie, j) = a H (Sig) + EM H (Sign) 
k k 


N 
(ta) = arg mint (s) 





其 中 ，n 和 分别 表示 左 枝 和 右 枝 数据 点 数量 。 N, 表示 在 节点 上 处， 数据 点 的 数 
量 。 假 定 用 b (5 可 以 是 左 或 右 分 枝 ) 分 枝 每 个 目标 值 1 的 概率 p, -L RER, EENS 
n, 



































Im 


























五 可 以 有 不 同 的 形式 : 
。 AH: H(S,) 2 Y py log; py 





。 分 枝 的 基尼 不 纯度 (Gini impurity): H(S,) - Y p, (0 - py) 














。 分 类 错误 : H(S,) -1- max(p,) 


235 
Y» 2 EIL Y. 1 ie 
e 均 方 误差 (方差 ); HS) ==) o, - uy. Ku, 2 55 
N, ieN, N, 












































H 











请 注意 ， 后 者 常用 于 回归 问题 ， 而 前 两 个 多 用 于 分 类 问题 。 还 要 注意 ， 研 究 文 献 中 常 
引入 信息 增益 CGnformation gain〉 这 个 定义 ， 来 表示 节点 的 五 值 和 Zt yj) 之 间 的 差距 : 


























^ A 7 n 
IG- H($,) -I(t j). eh HG) - 2 pulos Pus Pu = 
l k 














如 果 特 征 j},， 有 4 个 可 能 的 离散 值 ， 也 就 不 存在 将 其 分 到 两 个 类 别 的 闵 值 娘 。 我 们 要 将 
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数据 分 到 a ARKAA 
例如 ,我们 可 以 月 











FI 














HARE PUER 








二 五 二 多 
个 ， 需要 计 


d RIREADH H E. 
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竹刀 ,来 确定 第 1 个 节点 Oc-00 的 切 分 规则 。 


























如 果 所 有 特征 的 取 值 为 连续 型 值 ， 那 么 就 需要 如 。 假 定 j-0 为 湿度 ， 将 数据 集中 可 能 








的 湿度 值 按 升 序 排列 ， 如 表 3.2 所 示 。 

























































































表 3.2 
h 0 99 
"4 yes no 
湿度 58 89 
« >= « « >= < >= « >= 
是 0 11 14 7 20 29 12 78 0 
f 0 89 21 13 60 10 49 22 0 
I( xt? , 0) 0.5 0.85 0.76 0.76 
因此 , LEE HIE BRI rg =arg min. (I(x, 7)) 58 « 我们 可 以 按照 相同 的 方式 


计算 气温 名、 风力 如 MAE n RISE. i$ 


不 纯度 ， 以 决定 第 1 个 节点 的 最 佳 切 分 规则 ， 见 表 3.3。 









































完成 后 ， 我 们 就 可 以 计算 4 个 特征 每 个 特征 的 
















































































表 3.3 
z 是 带 企 
A 
f 否 
, i ed 0 xO <t 21 32 
湿度 广 0 - £l j-1 
x»zu 11 xcu 11 36 
不 纯度 : I(12,0)-0.5 不 纯度 : 1(11,1)-0.88 
S 带 伞 是 "d 
A 
f 否 
x cp 48 xP «n 39 3 
AJI j22 s 气压 j-3 i 
Xg 1 xP 2 45 13 
不 纯度 : 1(12,2)-0.31 不 纯度 : 1(12,3)-0.60 





PRERE t 的 风力 。 我 们 可 以 沿 着 树 往 下 到 
策 节 点 的 最 佳 切 分 规划， 直接 到 达 叶 子 节 点 。 





因而 ， 节 点 0 处 ， 最 但 








E 切 分 规则 为 : 


(41.4) —-arg min (1(6.0).1(6.1).1(5.2).1(6.3)) = (5:2) 
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E， 重 复 使 用 相同 的 方法 ， 找 出 其 余 决 





ERRIN 
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决策 树 学 习 ， 能 够 处 理 大 型 数 所 


居 集 ， 尺 管 它 的 泛 化 能 力 不 是 很 好 ， 尤 

















大 时 CNMN:M)。 遇 到 这 种 情况 ， 建 议 使 用 深度 较 小 的 树 ， 或 使 用 降 维 技术 。 设 定 进 
四 点 数量 ， 或 设 定 叶子 节点 的 最 小 数 
《overfitting)。 决 策 树 算法 可 能 会 生成 过 于 复杂 的 树 ;， 这 时 可 采 
除 不 影响 预测 质量 的 分 校 。 剪 枝 技术 有 多 种 ， 但 是 它们 超出 了 本 
我 们 还 可 以 同时 训练 多 棵 决策 树 ， 组 成 所 谓 的 随机 森林 (random forest)。 随 机 森林 算 ; 
从 原始 数据 集 随机 选取 一 部 分 数据 点 训练 一 棵 树 ， 该 树 每 个 决策 节点 的 学 习 ， 也 使 有 





分 所 需 最 少数 












































选取 的 特征 子 集 。 


口 








归 问 题 ， 








题 ， 则 按照 少数 服从 多 数 原则 选取 最 终 预 测 结果 。 


3.5 支持 向 量 机 


支持 向 量 机 (Support Vector Machine; SVM), 算法 尝试 从 几何 视角 将 数 
分 成 标签 为 y=+1 和 y=-1 的 两 个 子 集 。 在 
圆 )， 也 就 是 说 由 实 线 表示 的 决策 边界 (或 超 平面 ) 完全 将 两 个 类 别 分 开 〈 换 句 话 











圆 和 实心 
说 ， 没 有 分 错 类 的 数据 点 ): 











图 3.3 中 ， 数 


































































































其 是 特征 数量 很 
步 切 
量 ， 有 助 于 防止 出 现 过 拟 合 问题 
Jait (pruning) 技术 ， 去 
的 讲解 范围 。 请 注意 ， 
































H REWL 








取 多 棵 决策 树 预测 结果 的 均值 作为 最 终 预 测 结 果 ;， 而 分 类 问 





TT 
被 完美 地 分 成 两 个 类 别 (空心 











is 
L-2 


¥ Iwi 





Class 1 。 
Class 2 * 





1 

















KI 























超 平面 














3.3 Kik (决策 边界 ) 将 数 ] 


j 数 学 语言 可 表示 为 等 式 wx+D= 0, 














局 








X 











NET TR RIZ. LF HEILAR H 











标 是 ， 最 大 化 





际 操 作 中 , RIKERE 
上 上 ， 与 决策 边界 之 间 的 距离 分 别 为 di 下 











为 两 类 【空心 和 实心 








ld, : 











V 


E 
多 | 








A 
Iv 


各 数据 点 到 决策 边界 之 间 的 距离 。 实 


为 超 平 面 与 原点 之 间 的 距离 ，w 








E 离 决策 边界 最 近 、 叫 作 支 持 向 量 的 数据 点 i。 它 们 位 于 平面 妈 M H, 
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H EFM: wx? +b=+1, y,=+1 -------- (D 
H EP: w x®+b=-1, y;=1 -------- (2) 














超 平 面 与 决策 边界 之 间 的 距离 叫 作 间隔 margin), BEd =d, WA, SEENA 
法 要 找 的 就 是 使 得 间隔 最 大 的 w 和 2 的 值 。 
Ds 73 H, M A, 之 间 的 距离 为 二 ， 所 以 间隔 为 二 ， 那 么 支持 向 量 机 算法 等 价 于 求解 如 


Iw [w 



































下 问题 : 


nin wf such that y, (wx? 十 b) -120 Viel,..,N 








为 了 使 用 二 次 规划 方法 求解 这 个 数学 问题 , 我 们 在 上 式 中 添加 了 平方 运算 和 因子 1/2。 然 后 ， 
我 们 使 用 拉 格 朗 日 乘 子 法 将 这 个 问题 改写 为 如 下 拉 格 朗 日 函数 ， 其 中 w, >0 为 拉 格 朗 日 乘 子 : 



























































1 2 N-I 四 1 2 N-1 D N-1 
L=>|w] 一 a, y (x *w*b)-1|--lw - May, (x “w+D)+ a, 
2 i=0 2 i=0 i=0 
分 别 对 hw| 和 |b| 求 偏 导数 ， 并 令 导数 为 0， 我 们 得 到 : 
N-1 . 
w=} apa (33 
i=0 
N-1 
2 0 0 (4) 
i-0 





优化 过 后 的 拉 格 朗 日 函数 为 : 


er Da d 


N-I N-I 
i=0 ij i=0 


1 
L,- a, 2 0, H,a ja 7 0Vi e 0... N-19 ya - 0 


i 





z ORE 
其 中 ， Hj =y yx xe 


上 式 称 为 原 问 题 的 对 偶 问 题 ， 这 时 我 们 只 要 找到 w, 的 最 大 值 即 可 : 





i-0 


N-1 1 N-1 
bL Esto, |a Zz0vie0,.,N— 1, ya, =0 
i i=0 ij 



































用 二 次 规划 方法 求 得 w.>0sES〈w =0 时 ， 返 回 空 向 量 )。 用 公式 (GO 表示 支持 向 量 w: 
w=} a, y x? (5) 


seS 


a 满足 以 下 等 式 〈 结 合式 OD MA 2)): 
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Y, -(w.x? +b)=1 
将 w BRAKA (3)， 两 边 同 时 乘 以 7 (+1 或 -1)， 得 到 : 


= (m) | (s) 
b=y,— D0 yx X 

















取 所 有 支持 向 量 N, BOX B. HA b 的 估计 更 加 准确 : 
b= - Ya, yx" x (6) 




















我 们 根据 式 〈5$) 和 式 〈6) 得 到 了 支持 向 量 机 算法 的 参数 值 。 然 后 ， 就 可 以 用 这 些 参 
数值 定义 的 支持 向 量 机 模型 预测 测试 集 数 据点 1 的 类 别 : 


























x?.w-bZ1—y,-1 


x? 
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如 果 一 条 线 无 法 恰好 将 所 有 数据 点 分 到 两 个 类 别 ， 我 们 需要 允许 数据 点 以 多 大 的 比率 
E >0 被 分 错 类 ， 即 
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我 们 需要 最 大 化 间隔 ， 以 最 小 化 将 数据 点 分 错 类 别 的 情况 。 该 条 件 可 以 表述 为 : 
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其 中 ， 参 数 C 用 来 平衡 间隔 大 小 跟 分 类 错误 之 间 的 关系 〈C=0 表示 没有 分 错 类 别 的 ， 
间隔 最 大 化 ，C>1， 很 多 数据 点 分 错 类 别 ， 间 隔 较 小 )。 使 用 跟 之 前 相同 的 方法 ， 可 将 上 面 
这 个 问题 转换 为 带 有 约束 条 件 的 对 偶 问 题 ， 注 意 拉 格 朗 日 乘 子 以 C 为 上 界 : 
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到 目前 为 上 上， 我 们 处 理 的 是 二 值 分 类 问题 。 真 实 的 分 类 问题 ， 也 许 有 多 个 类 别 ， 用 文 
持 向 量 机 处 理 多 个 类 别 的 分 类 问题 ， 常 用 的 方法 〈 对 数 几 率 回 归 一 节 讲 过 ) 有 两 种 : 一 对 
多 或 一 对 一 。 给 定 包含 M 个 类 别 的 分 类 问题 : 方法 一 ， 训 练 M 个 SVM 模型 ， 每 个 为 目标 
类 别 7 输出 +1， 其 余 类 别 输出 -1。 方 法 二 ， 分 别 为 每 组 类 别 i 和 训练 一 个 模型 ， 共 训练 










































































MOLD egent. 显然 ， 方 法 二 计算 开销 更 大 ， 但 结果 也 更 为 准确 。 





异步 社区 会 员 TUYO S bbb n0» Sy 963 31S com) 专 享 尊重 版 权 





35 支持 向 量 机 73 









































类 似 ，SVM 也 可 
w 和 bp， 使 得 








JF y, Æ 


这 时 ， 算 法 的 目标 是 寻找 参数 








介 于 -1 到 1 之 间 的 回归 问题 


村 





y =w:x® +b 





我 们 假设 实际 值 t 可 能 
ARE E Ss KI, 














们 还 能 进 


数据 点 i 的 多 个 预测 值 y 


不 同 于 预测 值 y, 的 最 大 误差 为 eE 。 在 容忍 误差 e 的 基础 上 ， 我 
这 具体 取决 于 yy 是 大 于 还 是 小 于 t 。 在 图 3.4 中 ， 












































围绕 在 实际 值 4 的 周围 ， 同 时 还 给 出 误差 范围 。 
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最 小 化 问题 变 为 : 




















图 3.4 ”预测 值 y, Dih 





E 实 际 值 1 的 周围 
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新 预测 值 y, 可 用 公 
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和 E 看 出 ， 相 应 的 对 偶 问 题 变 为 : 





a; )(a; x ) x' - x' |subject 


N-1 


i-0 


RTF. 





， 参 数 b 的 计算 方法 跟 之 前 
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选取 5 的 子 集中 满足 条 件 C>a+ 、a- >0 和 n, E0 的 支持 向 量 求解 ， 取 均值 


内 核 技巧 
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有 些 数据 集 在 特定 的 空间 线性 不 可 分 ， 但 转换 到 合适 的 空间 后 ， 可 用 超 平面 合理 地 将 
数据 分 成 两 个 或 多 个 类 别 。 如 图 3.5 所 示 的 这 个 例子 : 
10 
x Class 1 
pd o class 2 
XY 
X 
XA a~ 
à, ego do 
og 9959 WoS 
$055 o 95559 o? 
i o om do 9 
-6 ET 96 o9 $ 
0 10 
6 -10 3 
图 3.5” 左 侧 的 数据 集 在 二 维 空间 不 可 分 ， 映 射 到 三 维 空间 后 ， 两 个 类 别 变 为 可 分 
图 3.5， 两 个 类 别 在 二 维 空间 〈 左 图 ) 显然 是 线性 不 可 分 的 。 假 如 我 们 对 数据 应 用 内 核 
PUNK, ES 
SEEN 
K(x x0) um 
现在 就 可 以 用 二 维 平面 ( 右 图 ) 将 数据 分 开 。SVM RAR AIRSET H, 的 ， 
记得 用 内 核 函 数 蔡 换 变量 六 j 的 点 积 : 
H, - yy, x” .x H, = pa Ka) 
© 原文 为 “averaging on the subset S given by the support vectors associated with the subset C>as ,av>0 and, & =0”。 一 一 译 者 注 
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SVM 算法 常用 的 内 核 函 数 有 : 


。 线性 内 核 : (xa a 























e 径 向 基 (Radial Basis Kernel, RBF) 内 核 : Re ca 
y x b 
。 多 项 式 内 核 : K (39,39 ) - (399 399 a) 


e Sigmoid 内 核 : depot sm ) E tanh (ax? EC b) 


3.6 有 监督 学 习 方 法 的 对 比 





我 们 接 下 来 解决 一 个 回归 问题 和 一 个 分 类 问题 ， 以 测试 本 章 前 面 讨论 的 这 几 种 方法 。 
为 了 避免 过 拟 合 问 题 ， 数 据 集 分 为 两 部 分 : 训练 集 ， 找 到 能 够 拟 合 模型 的 参数 ， 测 试 集 
评估 模型 的 正确 率 。 然 而 ， 也 许 还 有 必要 使 用 第 3 个 集合 验证 集 ， 优 化 超 参 数 
Chyperparameter， 比 如 SVM 的 C 和 E€E、 岭 回归 的 xc)。 原 始 数据 集 也 许 太 小 ， 因 此 分 成 三 
份 不 合适 。 此 外 ， 算 法 的 结果 也 许 会 受到 训练 集 、 验 证 集 和 测试 集 所 选用 的 特定 数据 点 的 
影响 。 这 两 个 问题 ， 常 用 的 解决 方法 是 ， 用 交叉 检验 方法 评估 模型 一 一 将 数据 集 分 成 个 
子 集 〈 叫 作 折 )， 并 按 如 下 步骤 训练 模型 。 

。 用 1 折 数 据 作为 训练 数据 训练 模型 。 

。 用 剩余 数据 测试 得 到 的 模型 。 

。 重复 以 上 步骤 上 次 《一 开始 确定 的 折 数 )， 每 次 用 另外 k1 折 数 据 训练 〈 因 此 每 次 

使 用 的 测试 集 也 就 不 同 )。 对 大 次 欠 代 得 到 的 正确 率 取 均 值 ， 得 到 最 终 的 正确 率 。 


3.6.1 回归 问题 


下 面 我 们 结合 波士顿 郊区 房屋 数据 集 评 估 各 种 回归 算法 的 优 劣 ， 该 数据 集 可 从 
http://archive.ics.uci.edu/ml/datasets/Housing 和 作者 GitHub 主页 本 章 的 文件 夹 中 下 载 
(https://github.com/ai2010/machine learning for the web/tree/master/chapter 3/). 这 一 部 分 的 
代码 也 可 从 该 文件 夹 找到 。 房 屋 数据 集 共 有 13 个 特征 。 

。 CRM: 城镇 人 均 犯 罪 率 ; 

。 ZN: 每 2.5 万 平方 英尺 土地 中 ， 规 划 的 住宅 用 地 的 比例 ; 
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。 INDUS: 每 个 城镇 用 于 非 零 售 业务 土地 的 比例 ; 

e CHAS: 查尔斯 河 ， 呈 变量 (靠近 河 为 1; 否则 为 0); 

。 NOX: 氮 氧 化 物 的 浓度 〈 百 万 分 之 一 ) 

。 RM: 住所 平均 拥有 的 房间 数 ; 

e AGE: 建 于 1940 年 之 前 的 业主 自 住房 比例 ; 
。 DIS: 与 波士顿 5 个 就 业 中 心 距离 的 加 权 值 ; 
。 RAD: 驶 往 放 射 状 高 速 公路 的 便捷 指数 ; 

e TAX: 每 $10000 美元 ， 全 额 地 税 税率 ; 

e PTRATIO: 城镇 师 生 比例 ; 

e B: 1000(Bk -0.63)/2, HB Bk 为 城镇 黑人 人 口 的 比例 ; 

。 LSTAT: 住房 条 件 较 差 人 口 的 比例 ， 我 们 想 预 测 的 是 房屋 价值 MEDV (以 $1000 计 )。 


为 了 评估 模型 的 质量 ， 我 们 计算 模型 的 均 方 误差 和 判定 系数 R*? Ccoefficient of 
determination). R° 的 定义 为 : 






















































































Ap, y" 表示 模型 给 出 的 预测 标签 。 


若 模 型 完美 地 拟 合 数据 ，R?=1， 模 型 的 预测 效果 达到 最 佳 。 而 R^ -0 时 ， 模 型 为 一 条 
恒 等 的 直线 (如果 为 负数 ， 那 就 表明 拟 合 程 度 很 糟糕 )。 下 面 代码 ,训练 线性 回归 、 怜 回归 、 
套 索 回归 和 SVM 回归 模型 ， 并 计算 各 自 的 均 方 误差 和 判定 系数 ， 我 们 用 到 了 sklean Æ 
(IPython notebook 版 代码 文件 请 见 https://github.com/ai2010/machine learning for the web/tree/ 
master/chapter 3/). 













































































In [4]: import pandas as pd 
import numpy as np 
from sklearn import cross validation 
from sklearn import svm 
from sklearn.tree import DecisionTreeRegressor 
from sklearn.ensemble import RandomForestRegressor 
from sklearn.linear model import LinearRegression 
from sklearn.linear model import Ridge 
from sklearn.linear model import Lasso 
from sklearn.neighbors import KNeighborsRegressor 
from sklearn.metrics import mean squared error 
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In [7]: 


df = pd.read csv('housing.csv',sep-',',header-None) 
#shuffle the data 

df = df.iloc[np.random.permutation(len(df))] 

X= df[df.columns[:-1]].values 

Y = df[df.columns[-1]].values 


cv = 10 

print 'linear regression' 

lin = LinearRegression() 

Scores = cross validation.cross val score(lin, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(lin, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 


print 'ridge regression' 

ridge - Ridge(alpha-1.0) 

Scores - cross validation.cross val score(ridge, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(ridge, X,Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'lasso regression' 

lasso = Lasso(alpha-0.1) 

Scores - cross validation.cross val score(lasso, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- $0.2f£)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(lasso, X,Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'decision tree regression' 

tree - DecisionTreeRegressor(random state-0) 

Scores - cross validation.cross val score(tree, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(tree, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 


print 'random forest regression' 

forest = RandomForestRegressor(n estimators-50, max depth-None,min samples split-1, 
random state-0) 

Scores - cross validation.cross val score(forest, X, Y, cv-cv) 

print("mean R2: $0.2f (+/- %0.2f)" $ (scores.mean(), scores.std() * 2)) 

predicted - cross validation.cross val predict(forest, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 

fsvm 

print 'linear support vector machine' 

svm lin = svm.SVR(epsilon-0.2,kernel-'linear',C-1) 

Scores = cross validation.cross val score(svm lin, X, Y, cv-cv) 

print("mean R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 

predicted = cross validation.cross val predict(svm lin, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 


print 'support vector machine rbf' 

clf = svm.SVR(epsilon-0.2,kernel-'rbf',C-1.) 

scores = cross validation.cross val score(clf, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted = cross validation.cross val predict(clf, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 


print 'knn' 

knn = KNeighborsRegressor() 

Scores = cross validation.cross val score(knn, X, Y, cv-cv) 
print("mean R2: $0.2f (+/- $0.2£)" $ (scores.mean(), scores.std() * 2)) 
predicted = cross validation.cross val predict(knn, X,Y, cv-cv) 

print 'MSE:',mean squared error(Y,predicted) 
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用 pandas 库 加 载 住房 数据 ， 用 dfiloc[np.random.permutation(len(df)] 打 乱 数 据 的 顺序 ， 














从 而 在 使 用 交叉 检验 方法 时 ， 保 证 各 折 数 据 是 随机 选取 的 《我 们 使 用 10 折 )。 各 算法 的 输 
出 结果 如 下 : 





linear regression 

mean R2; 0.72 (+/- 0.15) 
MSE: 23.5515499366 

ridge regression 

mean R2: 0.72 (+/- 0.16) 
MSE: 23.7397585761 

lasso regression 

mean R2: 0.71 (+/- 0.17) 
MSE: 24.734860679 
decision tree regression 
mean R2: 0.75 (+/- 0.24) 
MSE: 19.8023913043 
random forest regression 
mean R2: 0.87 (*/- 0.12) 
MSE: 10.9910313913 


linear support vector machine 


mean R2: 0.70 (+/- 0.25) 
MSE: 25.833801836 


support vector machine rbf 


mean R2: -0.01 (+/- 0.11) 
MSE: 83.8283880541 

knn 

mean R2: 0.54 (+/- 0.23) 
MSE: 37.8792632411 
































随机 森林 算法 〈50 棵 树 ) 训练 的 模型 对 数据 的 拟 合 程度 最 高 ; 它 返回 的 判定 系数 均 


值 为 0.86，MSE=11.5。 决 策 树 回归 符合 











TRU. "BU R^ 比 随机 森林 小 ，MSE 则 比 随机 森 





林 高 (这 两 个 指标 分 别 为 0.67 和 25)。 内 核 为 rbf (C=1，E=0.2) 的 支持 向 量 机 是 最 差 
的 模型 ， 其 MSE 高 达 83.9，R? 则 为 0.0。 而 线性 内 核 SVM 是 一 个 非常 出 色 的 模型 Cm 
Jude BH, 结果 相 差 不 大 ，R? 和 MSE 分 别 约 为 
0.7 和 24。 提 升 模型 效果 的 一 个 重要 方法 就 是 特征 选 


和 MSE 分 别 为 0.69 和 25.80. & AR Hl 


一 部 分 特征 适用 于 模型 训练 ， 而 其 他 特征 也 许 对 模型 的 及 没有 任何 贡献 。 特 征 选取 也 
午 会 改善 RR， 因为 将 起 误导 作用 的 数据 排除 在 外 ， 同 时 训练 时 间 也 会 相应 缩短 (考虑 





















































y 
的 特征 更 少 )。 
为 特定 模型 



































取 。 因 为 在 所 有 特征 中 ， 往 往 只 有 
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] 取 最 佳 特征 , 方法 有 很 多 , 我 们 将 探索 递归 特征 消除 法 (Recursive Feature 


Elimination，RSE)， 它 只 选取 具有 最 大 绝对 权重 的 特征 ， 直 到 特征 的 数量 满足 为 止 。SVM 




















归 算 法 ， 权 重 为 模型 的 参数 2。 我 们 接 下 来 利用 sklearn 的 内 





置 函 数 RFE， 仅 用 4 个 最 佳 特征 (best features). 来 观察 模型 的 预测 效果 : 
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In [9]: 





from sklearn.feature selection import RFE 

best features-4 

print 'feature selection on linear regression' 

rfe lin = RFE(lin,best features).fit(X,Y) 

mask - np.array(rfe lin.support ) 

Scores - cross validation.cross val score(lin, X[:,mask], Y, cv-cv) 
print("R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(lin, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection ridge regression' 

rfe ridge - RFE(ridge,best features).fit(X,Y) 

mask - np.array(rfe ridge.support ) 

Scores = cross validation.cross val score(ridge, X[:,mask], Y, cv-cv) 
print("R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(ridge, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection on lasso regression' 

rfe lasso - RFE(lasso,best features).fit(X,Y) 

mask - np.array(rfe lasso.support ) 

scores = cross validation.cross val score(lasso, X[:,mask], Y, cv-cv) 
print("R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(lasso, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection on decision tree' 

rfe tree - RFE(tree,best features).fit(X,Y) 

mask - np.array(rfe tree.support ) 

Scores = cross validation.cross val score(tree, X[:,mask], Y, cv-cv) 
print("R2: $0.2f (+/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(tree, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection on random forest' 

rfe forest - RFE(forest,best features).fit(X,Y) 

mask - np.array(rfe forest.support ) 

Scores = cross validation.cross val score(forest, X[:,mask], Y, cv-cv) 
print("R2: $0.2f (*/- $0.2f)" $ (scores.mean(), scores.std() * 2)) 
predicted - cross validation.cross val predict(forest, X[:,mask],Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


print 'feature selection on linear support vector machine' 

rfe svm - RFE(svm lin,best features).fit(X,Y) 

mask - np.array(rfe svm.support ) 

Scores = cross validation.cross val score(svm lin, X[:,mask], Y, cv-cv) 
print("R2: $0.2f (*/- $0.2f)" € (scores.mean(), scores.std() * 2)) 
predicted = cross validation.cross val predict(svm lin, X,Y, cv-cv) 
print 'MSE:',mean squared error(Y,predicted) 


| 79 








俞 出 为 : 








feature selection on linear regression 
R2: 0.61 (+/- 0.31) 

MSE: 33.182126206 

feature selection ridge regression 

R2: 0.61 (+/- 0.32) 

MSE: 33.2543979822 

feature selection on lasso regression 
R2: 0.68 (+/- 0.20) 

MSE: 27.4174043724 

feature selection on decision tree 

R2: 0.70 (+/- 0.35) 

MSE: 24.1185968379 

feature selection on random forest 

R2: 0.84 (+/- 0.14) 

MSE: 13.6755712332 

feature selection on linear support vector machine 
R2: 0.60 (+/- 0.33) 
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RFE 函数 返回 布尔 值 列表 (用 RFE 函数 的 support 属性 得 到 该 列表 )， 表 明 选 择 了 哪些 特征 
(EX true) 和 没有 选择 哪些 特征 〈 值 为 false )。 我 们 用 选择 的 特征 评估 前 面 所 讲 的 几 个 模型 。 

即使 仅 使 用 4 个 特征 ， 最 佳 模 型 仍 是 由 50 棵 树 组 成 的 随机 森林 算法 ， 它 的 R? 只 是 稍微 低 于 
全 部 特征 训练 得 到 的 模型 (0.82 和 0.86 的 差距 )。 其 余 模型 一 一 套 索 回归 、 岭 回归 、 决 策 树 和 
线性 SVM 回归 一 一 它们 的 R 与 随机 森林 有 较 大 的 差距 , 但 比 起 之 前 用 全 部 特征 训练 得 到 的 模型 ， 
结果 依旧 可 观 。 请 注意 ， 由 于 KNN 算法 不 支持 为 特征 加 权 ， 因 此 无 法 使 用 REF 方法 抽取 特征 。 


3.6.2 分 类 问题 


我 们 用 汽车 质量 (inaccurate、accurate、good 和 very good) 评 佑 数据 集 ， 训 练 本 章 学 
习 的 分 类 器 。 该 数据 集 含有 6 个 描述 汽车 主要 特点 的 特征 (购买 时 的 价格 、 维 护 成 本 、 车 
门 数量 、 核 载 人 数 、 后 备 箱 大 小 和 安全 性 )。 该 数据 集 可 以 从 http://archive.ics.uci.edu/ 
ml/datasets/Car+Evaluation 或 我 的 GitHub 主页 本 章 文 件 夹 下 载 ， 代 码 也 放 到 这 里 了 
(https://github.com/ai2010/machine learning for the web/tree/master/chapter 3/2. 我 们 用 准确 
率 (precision), AEX (recall) 和 了 值 评估 算法 的 正确 性 。 给 定 一 个 只 包含 两 个 类 别 ( 正 
类 和 负 类 ) 的 数据 集 ， 我 们 将 正确 标记 为 正 类 的 数据 点 称 为 真正 类 (true positive, tp), ix 
标记 为 正 类 的 点 称 为 假 正 类 (false positive， 印 )， 误 标记 为 负 类 的 点 称 为 假 负 类 (false 
negative，fn)。 有 了 以 上 定义 ， 我 们 就 可 以 给 出 准确 率 *、 召 回 率 和 / 值 的 公式 : 
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t 
Precision = P 
tp+ fn 
Recall = tp 
tp+ fn 


( precision - recall ) 





f -measure — 2 — 
( precision + recall) 


分 类 问题 ， 对 于 类 别 C 而 言 ,准确 率 (1.0) 指 分 到 类 别 C 的 每 个 数据 点 实际 属于 类 别 
C 不 关注 C 类 数据 点 是 否 分 错 类 )， 召 回 率 为 1.0 则 指 C 类 数据 点 都 分 到 C 类 (但 是 不 关 
注 其 他 数据 点 是 否 被 误 分 到 C 类 )。 
多 个 类 别 分 类 问题 ， 有 多 少 种 类 别 标签 ， 这 些 度量 指标 就 计算 多 少 次 。 每 次 将 一 个 类 
别 当 作 正 类 ， 其 余 当 作 负 类 。 然 后 对 三 种 不 同 指标 的 计算 结果 分 别 取 均值 ， 以 此 来 估计 总 
EAR ARM fE. 
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O 原 书 准确 率 公 式 有 误 ， 实 际 为 Precision= 。 一 一 译 者 注 
tptfp 
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为 汽车 数据 集 分 类 代码 如 下 。 首先, 导入 所 有 的 库 ， 并 将 数据 导入 为 pandas 的 DataFrame 对 象 。 








In [1]: import pandas as pd 
import numpy as np 
from sklearn import cross validation 
from sklearn import svm 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.naive bayes import MultinomialNB 
from sklearn.linear model import LogisticRegression 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.metrics import fl score 
from sklearn.metrics import precision score 
from sklearn.metrics import recall score 


In [10]: read data in 
df = pd.read csv('data cars.csv',header-None) 
for i in range(len(df.columns)): 
df[i] = df[i].astype('category') 
df.head() 





Out[10): 























下 面 几 个 特征 ， 特 征 值 为 类 别 型 











buying 0 v-high, high, med, low 
maintenance 1  v-high, high, med, low 
doors 2 2, 3, 4, 5-more 
persons 3 2, 4, more 

lug boot 4 small, med, big 

safety 5 low, med, high 


car evaluation 6 unacc,acc,good,vgood 

















将 这 些 特征 值 转换 为 分 类 算法 里 使 用 的 数字 : 














In [14]: #map catgories to values 


map0 = dict( zip( df[0].cat.categories, range( len(df[0].cat.categories )))) 


fprint mapO 
mapl 


map4 


cat cols = df.select dtypes(['category']).columns 
df[cat cols] = df[cat cols].apply(lambda x: x.cat.codes) 


df = df.iloc[np.random.permutation(len(df))] 
print df.head|)| 


012 34 5 6 
570 0010112 
951 2330012 
1633 1 1.0 1 12 0 
412 3 1 3 0022 
156 30121 12 


dict( zip( df[1].cat.categories, range( len(df[1].cat.categories )))) 
map2 = dict( zip( df[2].cat.categories, range( len(df[2].cat.categories )))) 
map3 - dict( zip( df[3].cat.categories, range( len(df[3].cat.categories )))) 

= dict( zip( df[4].cat.categories, range( len(df[4].cat.categories )))) 
map5 - dict( zip( df[5].cat.categories, range( len(df[5].cat.categories )))) 
map6 = dict( zip( df[6].cat.categories, range( len(df[6].cat.categories )))) 
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因为 我 们 需要 计算 和 保存 所 有 方法 分 类 效果 的 度量 指标 ， 为 此 我 们 编写 一 个 标准 函数 
CalcMeasures， 将 类 别 标 签 向 量 了 和 特征 向 量 针 分 开 : 




















In [40]: df fl = pd.DataFrame(columns-['method']*sorted(map6, key=map6 .get)) 
df precision = pd.DataFrame(columns*-['method']*sorted(map6, key*map6.get)) 
df recall = pd.DataFrame(columns-['method']*sorted(map6, key=map6 .get)) 
def CalcMeasures(method,y pred,y true,df fledf f1 
df precisionsdf precision,df recall-df recall): 


df fl.loc[len(df f1)] = [method]*list(fl score(y pred,y true,average-None)) 
df precision.loc[len(df precision)] = [method]*list(precision score(y pred,y true,average-lone)) 
df recall.loc[len(df recall)] = [method]*list(recall score(y pred,y true,average-None)) 


X= df[df.columns[:-1]].values 
Y = df[df.columns[-1]].values 




















我 们 采用 10 折 交 叉 检 验 ， 代 码 如 下 : 








In [41]: cv = 10 
method - 'linear support vector machine' 
clf = svm.SVC(kernel-'linear',Cz-50) 
y pred = cross validation.cross val predict(clf, X,Y, cv-cv) 
CalcMeasures(method,y pred,Y) 


method = 'rbf support vector machine' 

clf = svm.SVC(kernel-'rbf',C-50) 

y_pred = cross_validation.cross_val_predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 


method - 'poly support vector machine' 

clf = svm.SVC(kernel-'poly',C-50) 

y pred = cross_validation.cross_val_predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 

n = 'decision tree' 

clf = DecisionTreeClassifier(random state-0) 

y pred = cross validation.cross val predict(clf, X,Y, cv-cv) 
CalcMeasures(method,y pred,Y) 


method - 'random forest' 

clf = RandomForestClassifier(n estimators-50,random state-0,max features-None) 
y. pred = cross validation.cross val predict(clf, X,Y, cv-cv) 
CalcMeasures(method,y pred,Y) 


method - 'naive bayes' 

clf = MultinomialNB() 

y. pred = cross validation.cross val predict(clf, X,Y, cv-cv) 
CalcMeasures(method,y pred,Y) 


method = 'logistic regression' 

clf = LogisticRegression() 

y pred = cross validation.cross val predict(clf, X,Y, cv-cv) 
CalcMeasures(method,y pred,Y) 


method - 'k nearest neighbours' 

clf - KNeighborsClassifier(weights-'distance',n neighbors-5) 
y pred = cross validation.cross val predict(clf, X,Y, cv=cv) 
CalcMeasures(method,y pred,Y) 











我 们 将 各 种 分 类 算法 的 f 值 、 准 确 率 和 召回 率 这 3 个 指标 的 度量 结果 存储 到 DataFrame 
对 象 中 : 
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In [45]: df f1 


linear support vector machine 
Soon 
sores 


Soon 
k nearest neighbours (0.801609 | 0.534653 | 0.952988 | 0.666667 


In [46]: df precision| 


: bens oon os 








0.182292 0281818 





In [47]: df recall| 

oien sumpor vezr maene [osos oam o aasan |o vooon 
a 

=e 


每 个 指标 、 每 种 分 类 算法 ， 都 要 计算 4 次 一 一 “car evaluation ”有 多 少 个 不 同 的 类 别 
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标签 ， 就 计算 多 少 次 。 按 照 如 下 类 别 标签 和 索引 的 对 照 关 系 填 充 DataFrame 各 列 的 值 。 





taeco'i (0, *unacoc'$ 2, 'good'i 1, "'vgood'; 3 





从 以 上 输出 结果 可 见 ， 最 佳 模型 为 rbf 内 核 CC-500 SVM， 但 随机 森林 C50 棵 树 ) 和 
决策 树 的 分 类 能 力也 很 出 色 〔 对 于 以 上 4 个 类 别 ， 各 项 指标 均 在 0.9 之 上 )。 朴 素 贝 叶 斯 、 
对 数 几 率 回归 和 线性 内 核 (C=50) SVM 训练 的 模型 表现 较 差 ， 尤 其 是 对 于 accurate. good 
和 very good 3 个 类 别 ， 准 确 率 、 召 回 率 和 了 值 3 个 指标 均 不 理想 ， 因 为 只 有 少数 数据 点 打 
有 以 上 类 别 标签 : 






























































In [42]: labels counts-df[6].value counts() 
pd.Serips(map6).map(labels counts) 


Out[42]: acc 384 
good 69 
unacc 1210 
vgood 65 








dtype: int64 











从 百分比 情况 来 看 ，very good (vgood) 和 good 分 别 为 3.993% 和 3.76296, accurate 
为 22.222%， 而 inaccurate 为 70.022396 。 因 此 我 们 可 以 得 出 这 样 的 结论 : 这 些 算法 不 适合 
预测 数据 集中 的 小 众 类 别 。 


3. 7 ” 隐 马 尔 可 夫 模 型 


























虽然 严格 来 讲 ， 该 方法 不 能 算 作 有 监督 学 习 算法 ， 但 它 也 可 以 处 理 类 似 分 类 这 样 的 问 
题 ， 因 此 我 们 决定 讲 一 讲 该 方法 。 为 了 帮助 你 更 好 理解 ， 我 们 结合 一 个 例子 来 讲 。 例 如 ， 
推销 员 站 在 你 面前 ， 怎 样 通过 观察 他 说 话 时 的 眼神 (目光 接触 、 向 下 看 、 向 一 侧 看 ， 观 察 
结果 O; 分 别 取 0、1 和 2)， 预 测 他 是 否 在 撒谎 (两 个 状态 wiE 0,1)。 假 如 你 观察 到 他 的 眼 
神 序列 0= 0,,0,,0,,0,,0,,., 为 0, 1, 0, 2,…， 我 们 想 推断 在 连续 的 1、 t+1 时 刻 (推销 员 
说 前 后 两 句 话 时 )， 状 态 S; 的 转移 矩阵 A: 




























































































[0.7 0.3 
A "los v m 2 -1,.a; - P(s, at tells, at t) 


。 JERA 的 每 个 元 素 a; 表示 给 定 ! 时 刻 的 状态 8, 1 时 刻 位 于 状态 S; 的 概率 。 因 而 ， 
0.3(a,, ) 表 示 推 销 员 t 时 刻 撒 议 之 后 ，t+1 时 刻 不 再 撒谎 的 概率 ，0.6( a ) 表 示 先 不 
撒谎 、 后 再 撒谎 的 概率 ，0.7(ao ) 表 示 他 接连 在 A l 时 刻 撒 谎 的 概率 ，0.4( a ) 
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表示 他 t 时刻 是 真诚 的 ，t+1 时 刻 仍 不 撒谎 的 概率 。 类 似 地 ， 我 们 还 可 以 定义 矩阵 
有 7， 将 他 是 否 撒谎 两 种 状态 和 3 种 可 能 的 行为 联系 起 来 : 
0.7 0.1 0.2 
Aee os BCE) = X) = 1b (A) = P( at s at 1) 
B 中 的 元 素 bj 表示， 给 定 1 时 刻 的 状态 s,，t AMRA k ER, DIR. 0.7) 
0.1(bo ) 和 0.2( bo ) 分 别 表示 ， 我 们 观察 到 推销 员 以 下 行为 后 ， 他 撒谎 的 概率 一 一 目光 接触 、 
向 下 看 和 向 一 侧 看 。 是 否 撒谎 和 3 种 行为 之 间 的 关系 表述 如 图 3.6 所 示 : 















































没有 撒谎 


目光 接触 
向 下 看 向 下 看 
向 一 侧 看 ; 向 一 侧 看 











图 3.6 推销 员 行 为 一 一 包含 两 个 状态 的 隐 马 尔 可 夫 模 型 











推销 员 的 初始 状态 分 布 ， 可 以 定义 为 二 [0.6,0.4] CO 时 刻 说 第 1 句 话 时 ， 他 说 度 的 可 能 
性 稍 大 一 些 )。 请 注意 ， 和 矩阵 六 A. B 为 行 随机 矩阵 Crow stochastic)， 每 行 元 素 之 和 为 1， 
并 且 每 行 跟 时 间 没 有 直接 关系 。 隐 马尔 可 夫 模 型 (Hidden Markov Model, HMM) 由 3 个 
矩阵 组 成 =, 4，B))， 描 述 的 是 观察 序列 0= 0,0... , 和 相应 的 隐藏 状态 序列 
S= Sp SoS 1 之 间 的 关系 。 该 算法 通常 使 用 如 下 标记 符号 : 
。 了 为 观察 序列 O = 0v,O,,……Or-,、 隐 藏 状态 序列 8 = So Srs Sra 的 长 度 ; 
。 N 为 模型 中 可 能 《隐藏 ) 的 状态 数量 ; 
。 MM 为 可 能 的 观察 结果 数量 : OV, k€ 0,1, M-1; 
。 4 为 状态 转换 矩阵 ; 
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[pun 



































@ 又 称 发 射 概率 矩阵 。 的 行 表示 状态 ， 列 表示 行为 。 该 例 中 , BIS 0 fr. GS: 第 1 XS MOL. 5860 列 ， 目 
光 接 触 ; 第 1 列 ， 向 下 看 ; 第 2 列 向 一 侧 看 。 译 者 注 
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。 了 为 观察 概率 矩阵 ; 
。 Zz 为 初始 状态 的 概率 分 布 。 
推销 员 有 没有 撒谎 这 个 例子 ，M=3、N=2。 假 如 我 们 想 根 据 自己 观察 到 的 推销 员 的 行 
为 序列 O = 0O,,O,,…,O;,， 预 测 他 在 讲话 过 程 5S,,5,,…,S;_ 有 没有 撒谎 。 我 们 可 以 计算 每 
个 状态 序列 S 的 概率 ， 找 出 最 可 能 的 状态 序列 : 
P(S) =z, b, (0, Ja b, (0, ).. o 2ST- Dui (O07) 


Sosi 




































































例如 ， 时 刻 六 4、 状 态 序列 $=0101 和 观察 序列 0=1012 HO: 
p(0101) = 0.6(0.0(0.3)(0.0(0.6)(0.D(0.3)(0.3) = 9.722 x10% 

同 理 , 我 们 可 以 计算 其 他 所 有 隐藏 状态 组 合 的 概率 ,从 而 找 出 最 可 能 的 序列 S. Viterbi 
算法 能 够 高 效 地 找 出 最 可 能 序列 S$。 它 计算 的 是 从 时 刻 0 到 时 刻 + (一 直 计 算 到 区 1 时 刻 ) 
的 局 部 序列 (partial sequence) 的 最 大 概率 。 实 际 应 用 中 ， 我 们 需要 计算 以 下 几 个 量 : 

e 8 = 和 0(O) i€0,,N-I 

。 对 于 £71,777, 7-1 和 二 0, …,N-1, 来 自 状态 j 的 所 有 可 能 路 径 中 , t 时 刻 在 状态 i 的 最 

大 概率 : 65 (i)= max [6r- ;a b; (O, ,)] o Ô (i) 的 最 大 值 对 应 的 局 部 序列 是 从 时 刻 0 


ii 


















































al 














v 


到 上 最 可 能 的 局 部 序列 。 
。 Se 
例如 ， 给 定 上 面 这 个 模型 ， 长 度 为 T-2 的 、 最 可 能 的 序列 计算 方法 如 下 ?: 
e P(10)-0.0024 























e P(00)=0.0294 


Q 





因此 01(0)-P(00)-0.0294 

。 P(01)-0.076 

e P(11)-0.01 

”因此 61(1)=P(01)=0.076 

最 终 最 可 能 的 序列 是 00〈 连 续 两 句 话 都 撒谎 )。 









































QD S-0101 表示 先 撒谎 ， 后 不 撤 谎 ， 然 后 再 撒谎 ， 最 后 不 撒谎 。O=1012 表示 先 向 下 看 ， 又 目光 接触 ， 然 后 又 向 下 看 ， 最 后 向 一 侧 看 。 计 
算 p(0101) 的 式 子 ，8 个 概率 值 依次 是 一 上 来 就 撤 谎 的 概率 ， 撒 谎 时 向 下 看 的 概率 、 撤 谎 转 移 至 不 撒谎 状态 的 概率 、 不 撒谎 时 目光 接触 的 
概率 、 不 撒谎 转移 至 撒谎 状态 的 概率 、 撒 谎 时 向 下 看 的 概率 、 搬 谎 转 移 至 不 撤 谎 状态 的 概率 、 不 撒谎 时 向 一 侧 看 的 概率 。 一 一 译 者 注 
@ PAOS PODM P(11)3 个 结果 疑似 有 误 。 笔 者 提交 了 勘误 ， 尚 在 确认 中 。 一 一 译 者 注 
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另 一 种 寻找 最 可 能 序列 的 方法 是 ， 最 大 化 正确 








3.7 ” 隐 马 尔 可 夫 模 型 ”87 





状态 的 数量 ， 也 就 是 说 ， 在 每 个 时 刻 r, 















































状态 i 的 概率 都 要 达到 最 大 max (Y, (i) 。 我 们 可 以 用 向 后 外 
给 定 状态 i 的 概率 YQ) : 
a% )A (i) 
Y (i)= P(O0|A) 
° P(oja)=} a(i) 
* a (i)=zb,(0,)i€0,.., N-17 a, (i -|$ 
从 初始 时 刻 到 时 刻 t, HMM 在 时 刻 t 位 于 状态 
(0,...0, s, 2 i4) 
)-2«5^(0 O, Uo j) 2 中 :< 了 1 Pr- 


t ZIREN i, 


























。 结合 1 时 刻 前 后 位 于 状态 i 的 概率 ， 求 得 7(i)= 
请 注意 ， 以 上 两 种 计算 最 可 











1 时 刻 直 到 7-1 时 刻 ， 局 部 序列 的 概率 : B ( 门 = 














ik (backward algorithm). 计算 


di 


i， 局 部 观察 序列 的 概率 : a (i)=P 





1(i)=1 iet, N-1 
P(O, 4550 45/51]4) 
a (i) B (i) 
P(o|4) 
































& j 移动 的 概率 定义 为 : 


能 序列 的 方法 所 得 到 的 结果 不 一 定 相 同 。 
寻找 最 佳 序列 的 逆 问 题 一 一 给 定 序列 O= 0,,O,,… 
HMM 4-(z, A, B) 一 一 可 以 用 Baum-Welch 算法 迭代 求解 。 








O ,和 参数 值 W、M， 寻 找 最 佳 的 
1 时 刻 位 于 状态 i t1 时 刻 向 状 






































Y (57)=P(s, 25s, = j|0.2)- 
其 中 ， )-Yx( (i,j) for T €0,- T-2HY,,(i)- 
Baum-Welch 算法 描述 如 下 : 
。 初始 化 全 (x, A, B) 
。 dista) . BG) . YOMG) iE, N-1 
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。 重新 计算 模型 中 的 各 个 矩阵 : 





























T-2 T-1 
Y (i,j) > 8o, Y, (j) 
z (i) - Y, (i)a; -T5 „b, (0,)= E 
Y (i, j) Y (j) 
t-0 t-0 





HP, ijEo0, =, N-1; k€0,*, M-1; à, 为 内 罗 克 符号 (Kronacker Symbol)， 当 i=j 
时 ， 值 为 1， 和 否则 为 0。 








。 和 迭代 直到 收敛 P(0|)- Ya, (i) 


t= 


下 一 节 ， 我 们 讲解 如 何 用 Python 代码 实现 这 些 公 式 ， 测 试 HMM 算法 的 效果 。 


HMM 算法 的 Python 实现 














我 们 下 面 要 讨论 的 hmm example.py 文件 照旧 可 从 https://github.com/ai2010/machine _ 
learning for the web/tree/master/chapter 3/ 下 载 。 


我 们 先 定义 一 个 类 ， 传 入 HMM 模型 的 3 个 矩阵 。 














class HMM: 
def init (self): 
self.pi - pi 
self.A A 
self.B B 

















Viterbi 算法 和 正确 状态 最 大 化 用 以 下 两 个 函数 实现 : 

















def ViterbiSequence (self,observations): 
deltas - [()] 


seq = () 
N = self.A.shape[0] 
states = [i for i in range(N)] 


T = len(observations) 

dfinitialization 

for s in states: 
deltas[0][s] = self.pi[s]*self.B[s,observations[0]] 
seq[s] - Is] 

#compute Viterbi 

for t in range(1,T): 
deltas.append({}) 
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newseq = {} 
for s in states: 
(delta,state) = max((deltas[t-1][s0]*self.A[sO,s]*self.B[ 


s,observations[t]],s0O0) for s0 in states) 


def 


deltas[t][s] = delta 
newseq[s] = seq[state] + [s] 
Seq = newseq 


(delta,state) = max((deltas[T-1][s],s) for s in states) 
return delta,' sequence: ', seq[state] 


maxProbSequence (self,observations): 
N = self.A.shape[0] 
states = [i for i in range(N)] 
T = len(observations) 
M = self.B.shape[1] 
# alpha t(i) = P(O102 ...Ot,qt- Sii | hmm) 
# Initialize alpha 
alpha - np.zeros((N,T)) 
c = np.zeros(T) #scale factors 
alpha[:,0] = pi.T * self.B[:,observations[0]] 
c[0] = 1.0/np.sum(alpha[:,0]) 
alpha[:,0] = c[0] * al1pha[:,0] 
# Update alpha for each observation step 
for t in range(1,T): 
alpha[:,t] = np.dot(alpha[:,t-1].T, self.A).T * 


self.B[:,observations[t]] 


c[t] » 1.0/np.sum(alpha[:,t]) 
alpha[:,t] = c[t] * alpha[:,t] 
# beta t(i) = P(Ot410 t+2 ... OT | qt- Si , hmm) 
4$ Initialize beta 
beta - np.zeros((N,T)) 
beta[:,T-1] = 1 
beta[:,T-1] = c[T-1] * beta[:,T-1] 
# Update beta backwards froT end of sequence 
for t in range(len(observations)-1,0,-1): 
beta[:,t-1] = np.dot(self.A, (self.B[:,observations[t]] * 


beta[:,t])) 


beta[:,t-1] = c[t-1] * beta[:,t-1] 
norm = np.sum(alpha[:,T-1]) 


seq = '' 
for t in range (T): 
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g,state = max(((beta[i,t]*alpha[i,t])/norm,i) for i in 
states) 
seq +=str (state) 
return seq 
由 于 概率 的 乘法 运算 可 能 导致 数值 下 洲 问 题 , 所 有 的 &(i)、pB(i) i€0, -, N-1 都 乘 以 
了 一 个 常数 : 
1 
® CN 
2 
j-0 
1 N-1 ; 
* C, = N-1 aj) = Nou 14 ub, (O, ) 7 其 "pe ay) = Qo (i) 








Şal 0,50) m 
j-0 











现在 ， 我 们 可 以 用 推销 员 是 否 撒谎 那个 例子 中 的 矩阵 初始 化 HMM 模型 ， 然 后 用 前 面 














定义 的 两 个 函数 计算 最 可 能 的 序列 : 


pi = np.array([0.6, 0.4]) 
A = np.array([[0.7, 0.3], 
[0.6, 0.4]]) 
B = np.array([[0.7, 0.1, 0.2], 
[0.1, 0.6, 0.3]]) 
hmmguess - HMM(pi,A,B) 
print 'Viterbi sequence:',hmmguess.ViterbiSequence (np.array([0,1,0,2])) 
print 'max prob sequence:',hmmguess.maxProbSequence (np.array([0,1,0,2])) 


结果 为 : 


Viterbi: (0.0044, 'sequence: ', [0, 1, O, 0]) 
Max prob sequence: 0100 

















上 面 这 种 特殊 情况 ， 两 种 方法 返回 相同 的 序列 。 修 改 初始 化 时 使 用 的 矩阵， 两 种 算法 









































也 许 会 给 出 不 同 的 结果 。 我 们 得 到 的 行为 序列 《目光 接触 、 向 下 看 、 目 光 接 触 、 向 一 侧 看 ) 











可 能 


模型 。 









































访 推 销 员 状 态 序 列 〈 撒 谎 、 没 有 撒谎 、 撒 谎 、 撒 谎 ) 的 概率 为 0.0044。 
给 定 观 察 序列 和 参数 W、M 之 后 ， 我 们 也 可 以 实现 Baum-Welch 算法 ， 寻 找 最 佳 的 HMM 





代码 如 下 : 


def train(self,observations,criterion): 
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N = self.A.shape[0] 
T = len(observations) 
M = self.B.shape[1] 


A = self.A 
B = self.B 
pi = copy(self.pi) 


convergence - False 
while not convergence: 


# alpha t(i) = P(O102 ...Ot,qt- Si | hmm) 
# Initialize alpha 
alpha - np.zeros((N,T)) 
c = np.zeros(T) #scale factors 
alpha[:,0] = pi.T * self.B[:,observations[0]] 
c[0] = 1.0/np.sum(alpha[:,0]) 
alpha[:,0] = c[0] * al1pha[:,0] 
# Update alpha for each observation step 
for t in range(1,T): 
alpha[:,t] = np.dot(alpha[:,t-1].T, self.A).T * 
self.B[:,observations[t]] 
c[t] » 1.0/np.sum(alpha[:,t]) 
alpha[:,t] = c[t] * alpha[:,t] 


48P(O2O 0,0 1,...,0 T-1 | hmm) 
PO = np.sum(alpha[:,T-1]) 
# beta t(i) = P(O t+1 O t+2 ... OT | qt- Si , hmm) 


# Initialize beta 

beta - np.zeros((N,T)) 

beta[:,T-1] 1 

beta[:,T-1] = c[T-1] * beta[:,T-1] 

# Update beta backwards froT end of sequence 


for t in range(len(observations)-1,0,-1): 
beta[:,t-1] = np.dot(self.A, (self.B[:,observations[t]] * 
beta[:,t])) 
beta[:,t-1] = c[t-1] * beta[:,t-1] 
gi - np.zeros((N,N,T-1)); 


for t in range(T-1): 
for i in range(N): 


gamma num = alpha[i,t] * self.A[i,:] * 
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self.B[:,observations[t*1]].T * \ 
beta[:,t*1].T 
gi[i,:,t] = gamma num / P O 


# gamma t(i) = P(qt - Si | O, hmm) 

gamma = np.squeeze(np.sum(gi,axis-1)) 

# Need final gamma element for new B 

prod - (alpha[:,T-1] * beta[:,T-1]).reshape((-1,1)) 

gamma T = prod/P O 

gamma = np.hstack((gamma, gamma T)) fappend one Tore to 
gamma!!! 


newpi = gamma[:,0] 

newA = np.sum(gi,2) / np.sum(gamma[:,:-1],axis-1). 
reshape((-1,1)) 

newB = copy (B) 


sumgamma = np.sum(gamma,axis-1) 
for ob k in range(M): 
list k = observations == ob k 
newB[:,ob k] = np.sum(gamma[:,list k],axis-1) / sumgamma 


if np.max(abs(pi - newpi)) < criterion and \ 
np.max(abs(A - newA)) < criterion and \ 
np.max(abs(B - newB)) < criterion: 
convergence - True; 


A[:],B[:] ,pi[:] = newA,newB,newpi 


self.A[:] = newA 
self.B[:] = newB 
self.pi[:] = newpi 
self.gamma = gamma 















































请 注意 ， 上 面 代码 用 到 了 copy 模块 的 浅 复制 方法 ， 因 此 新 创建 的 容器 中 装载 的 是 对 原 
台 对 象 (pi、B ) 内 容 的 引用 。newpi 和 pi 是 两 个 不 同 的 对 象 , 但 是 newpi[0] 是 pi[0] 的 引用 
我 们 还 用 NumPy 的 squeeze 函数 ， 别 除了 和 矩阵 见 余 的 维度 。 

观察 序列 0=0,1,0,2， 对 应 的 最 佳 模型 是 : 


0.0 1.0] 1.0 0.0 0.0 
元 =[1.00.0],4 = ,B= 
1.0 0.0| 0.0 0.38 0.62 









































o 
































这 表明 ， 状 态 序列 必须 以 推销 员 说 真 话 开 始 ， 然 后 他 持续 在 撒 议 和 不 撒谎 两 种 状态 
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间 摇 摆 。 推 销 员 讲 真 话 《〈 或 不 撒谎 )， 一 定 是 目光 接触 ， 而 撤 谎 时 ， 要 么 向 下 看 ， 要 么 向 
一 侧 看 。 
这 个 简单 的 HMM 入 门 示例 ， 我 们 假定 每 个 观察 值 都 是 标量 ， 但 真实 应 用 中 ， 每 个 O, 
通常 是 由 多 个 特征 组 成 的 向 量 。.HMM 算法 常用 来 分 类 , 有 多 少 个 类 别 , 就 训练 多 少 个 HMM 
模型 ， 预 测 结 果 取 概率 最 高 的 P(O| 4 )。 接 着 这 个 例子 往 下 想 ， 假 如 我 们 要 构造 一 台 测 谎 
机 ， 检 验 每 一 位 推销 员 。 假 定 推销 员 所 说 的 每 句 话 〈 观 察 结 果 ) O ， 我 们 都 可 以 抽取 : 3 
个 视线 特征 ， 每 个 特征 e 有 3 个 可 能 的 取 值 ( 目 光 接 触 、 向 下 看 或 向 一 侧 看 )，3 个 声音 特 
正 ， 每 个 特征 v, 有 3 个 可 能 的 取 值 ( 太 大 、 太 小 或 适中 )，3 个 手 部 特征 ， 每 个 特征 有 有 两 
个 可 能 的 取 值 〈 晃 动 或 静止 )。 因 此 ， 观 察 结果 序列 O 可 表示 为 O = (evh) 。 训 练 阶段 ， 
我 们 请 朋友 撒谎 。 我 们 使 用 Baum-Welch 算法 ， 利 用 观察 结果 训练 HMM 和 。 然 后 ， 我 们 
重复 训练 过 程 ， 再 用 真 话 训 练 和 1。 预测 阶段 ， 我 们 记录 推销 员 所 说 的 话 O， 计 算 P(O|A,) 
和 P(OIl4)， 取 概率 最 大 的 作为 预测 结果 。 


虽然 HMM 算法 已 用 于 多 个 领域 ， 但 它 在 语音 识别 、 手 写字 母 识别 和 行为 识别 领域 表 
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3.8 ”小结 























在 本 章 中 ， 我 们 讨论 了 主要 的 分 类 和 回归 算法 及 其 实现 方法 。 你 应 该 已 经 理解 每 种 方 
法 的 使 用 场景 ， 并 懂得 如 何 用 Python 语言 和 相关 库 (sklearn 和 pandas) 实现 这 些 方法 。 
£ 


下 一 章 ， 我 们 将 介绍 最 常用 的 Web 数据 挖掘 技术 ， 掌 握 从 Web 数据 中 学 习 的 方法 。 
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第 4 章 


Web 挖掘 技术 





Web 数据 挖掘 技术 适用 于 探索 因特网 上 的 数据 ， 从 中 抽取 相关 信息 。 搜 索 网 上 内 
容 ， 其 过 程 很 复杂 ， 要 用 到 多 种 算法 ， 本 章 重 点 讲解 这 些 算 法 。 搜 索引 擎 ， 拿 到 查询 



























































i (search query). 之 后 ， 分 析 每 个 网 页 的 数据 ， 找 到 与 查询 词 相 关 的 网 页 。 网 页 中 的 











DE 
组 成 : 

采集 
抽取 


将 网 页 组 乡 








网 页 的 Web 
内 容 和 预 处 理 网 页 
‘为 数据 结构 















































居 通 常 分 为 网 页 内 容 和 链接 到 其 他 网 页 的 


€ rp ey o ; 


的 解析 器; 
的 索引 器 ; 




















全 
~ 


NA 


网 络 )。 搜 索引 擎 的 
页 ， 检 索 其 中 的 文本 信息 。 











信息 检索 系统 : 根据 文档 与 查询 词 的 相关 程度 ， 找 | 











以 某 种 有 意义 的 方式 ， 调 整 各 网 页 顺序 的 排序 算法 。 
这 些 部 件 的 核心 技术 为 Web 结构 挖 


搜索 引擎 的 Web 爬虫 、 索 引 器 和 排序 机 4 
部 分 (解析 器 和 检索 系统 ) 为 Web 内 容 分 析 方法 ， 因 








EAN 








=] 





Web AIZI 





EHER. mA RRI E H A FA 


重要 的 文档 ; 


sin 
58 





LC 


出 。 





Bj, AREIS Web 的 结构 〈 超 链接 文本 形成 的 











更 一 步 来 讲 








PN 
, 














， 对 于 收集 到 的 








分 析 工 具 。 
销 、 咨 询 领域 的 商业 应 


























现在 ， 我 们 首先 来 讨论 Web Hri 


这 些 重 要 技术 适用 了 
寺中， 都 能 看 到 它们 的 身影 。 本 章 最 后 


FJ Web 内 容 





Ea 


出 。 





网 页 ， 我 们 可 以 利用 自 























| 然 语言 处 理 技术 深入 分 析 
比如 使 用 潜在 狄 利克 雷 分 布 分 析 (Latent Dirichlet Allocation，LDA)、 意 见 挖掘 或 情 
取 其 发 表 人 的 主观 看 法 。 因 出 


为 要 解析 网 


























中 的 内 
感 
在 很 多 市 场 营 
将 讨论 这 些 情感 分 析 技 术 。 
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4.1 Web 结构 挖掘 














这 一 类 Web 挖掘 技术 ， 有 两 个 主要 任务 ， 一 是 如 何 发 现 网 页 之 间 的 关系 ， 二 是 如 何 利 
链接 结构 找 出 相关 网 页 。 任 务 一 ， 我 们 通常 用 爬虫 疏 取 链接 ， 并 将 爬 取 到 的 链接 和 网 页 
存储 到 索引 器 。 任 务 二 ， 则 要 计算 网 页 的 重要 性 ， 并 按 其 排序 。 


4.1.1 Web Eh 
































(H 






































区 虫 从 一 组 URL (种 子 网 页 ) 开始 爬 取 ， 从 这 些 网 页 抽取 链接 后 ， 接 着 去 爬 取 它 们 。 
然后 ， 再 从 新 疏 取 到 的 网 页 抽取 新 链接 。 重 复 这 一 过 程 ， 直 到 满足 预先 设 定 的 标准 为 止 。 
RERA URL 存储 在 frontier 列表 。 根 据 爬 虫 怎样 使 用 这 个 列表 ， 我 们 可 将 朴 虫 算法 分 为 
不 同 的 类 型 ， 比 如 广度 优先 〈breadth-first) 和 有 倾向 性 CpreferentiaD. 的 爬虫 。 广 度 优先 
法 ,下 一 个 要 爬 取 的 URL 来 自 于 frontier 列表 的 头 部 位 置 , 而 新 爬 取 的 URL 则 追加 到 frontier 
列表 的 尾部 。 有 倾向 性 的 候 虫 ， 则 用 特定 的 重要 性 评估 方法 ， 评 估 未 访问 的 URL 列表 ， 以 
决定 先 仆 取 哪 个 页 面 。 从 网 页 抽取 链接 需要 用 解析 器 。Web 内 容 挖掘 一 节 会 做 详细 介绍 。 


世 虫 本 质 上 是 一 种 图 搜索 算法 ， 即 按照 特定 规则 ， 检 索 初 始 页 各 相 邻 页 面 的 结构 ， 规 
则 可 以 是 爬 取 的 最 大 链接 数量 〈 图 的 深度 )、 疏 取 的 最 大 网 页 数量 或 时 间 限 制 等 。 然 后 ， 疏 
虫 从 我 们 感 兴趣 的 网 页 〈 比 如 信息 港 hub 和 权威 网 页 authority) 抽取 一 部 分 内 容 。 信 息 ; 
间 包 含 大量 链 接 的 网 页 ， 而 权威 网 页 指 该 网 页 的 URL. 多 次 出 现在 其 他 网 页 (该 指标 可 衡量 
网 页 的 受 欢迎 程度 )。 我 们 后 面 会 用 Scrapy ERAM. Scrapy ERER 2$ H1. 它 是 用 Python 
实现 的 ， 采 用 并 发 机 制 〈 用 Twisted 框架 实现 异步 编程 ) 加 快 处 理 速度 。Scrapy 的 使 用 教 
程 见 第 7 章 电影 推荐 系统 Web 应 用 ， 我 们 要 用 它 从 影评 抽取 信息 。 


4.1.2 索引 器 


索引 器 是 一 种 网 页 存储 方式 ， 它 将 讨 虫 朴 取 到 的 网 页 存储 到 结构 化 数据 库 ， 便 于 后 续 
根据 给 定 的 查询 词 快速 检索 。 最 简单 的 索引 方法 是 直接 存储 所 有 了 网页， 查询 时 ， 查 找 包 含 
关键 词 〈 查 询 词 的 组 成 部 分 ) 的 所 有 文档 。 然 而 ， 如 果 网 页 很 多 (实际 应 用 中 确实 如 此 )， 
由 于 计算 开销 很 大 ， 这 样 做 不 可 行 。 最 常用 的 提升 检索 速度 的 方法 叫 作 倒 排 索引 机 制 
(inverted index scheme )， 它 为 大 多 数 主 流 搜 索引 擎 所 采用 。 

给 定 一 组 网 页 p1,…, pi 和 包含 网 页 出 现 的 所 有 单词 wE 天 的 词汇 表 V. 我 们 将 单词 及 
含有 该 单词 的 网 页 编号 对 应 起 来 ， 形成 如 下 形式 的 列表 : wid? idp, t, wi idp, idp 

























































































































































































































































































































































































































































































































































































异步 社区 会 员 YN i bt eno» dy Ic 3 Std com) 专 享 尊重 版 权 





96 第 4 章 Web 挖掘 技术 


x 








Ks id, 表示 网 页 j 


的 列表 保存 起 来 ， 做 成 倒 排 索 引 数据 库 。 
的 编号 。 除 此 之 外 ,我 们 还 可 以 存储 每 个 单 





单词 在 每 个 网 页 的 频数 或 在 F 


























词 的 其 他 信息 ， 比 如 











页 中 的 位 置 。 
主要 概念 。 但 索引 器 的 具体 实现 ， 超 出 了 本 


因而 ， 查 询 词 若 由 多 个 单词 








E^ 























排序 算法 很 重要 。 因 为 通常 仅 一 
最 相关 的 网 页 成 为 一 个 大 难题 。 进 一 步 讲 ， 
使 得 网 页 与 大 量 











入 多 个 关键 词 ， 


并 将 找到 的 多 个 倒 排 索引 列表 合 
定 文档 和 查询 词 之 间 的 相关 性 ， 从 而 最 终 确定 索引 列表 的 顺序 。 


4.1.3 ”排序 一 一 PageRank 算法 

















为 了 保证 








BAT 
组 成 ， 发 起 检索 后 ， 














解 范围 。 





本 书 内 容 的 完整 性 ， 我 们 介绍 了 这 
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系统 将 查找 每 个 单词 的 倒 排 索引 列表 ， 














后 返回 。 然 后 ， 再 用 排 / 






































条 查询 词 ， 也 许 就 会 返 
欺骗 信息 








YE 


法 和 信息 


检索 系统 ， 





Pr ANE 
综合 评 











回 海量 网 
检索 模型 也 很 简 六 


。 因 此 ， 如 何 选取 
， 只 需 在 网 页 中 插 








zb dE m 








查询 词 相关 即 可 。 因 




















数 ) 的 评估 问题 ， 人 们 考虑 利 
页 链接 到 另 一 个 网 页 一 一 是 评估 网 页 相关 性 的 主要 信息 


指向 网 页 i 的 超 链接 ; 
网 页 i 中 指向 其 他 网 页 的 超 链 接 。 
直觉 告诉 我 们 ， 入 链 越 多 的 网 页 应 该 起 








e. 网 页 i 的 入 链 : 
e. 网 页 i 的 出 链 : 
































HI. 8 





究 人 员 研 制 了 很 多 算法 # 








所 知 。 我 们 将 解释 最 著名 的 PageRank $ 
创始 人 ) 在 1998 年 提出 的 。 它 的 总 体 思 想 
威 性 之 和 。 如 果 网 页 j 的 权威 性 为 PO 






































互联 网 具有 图 








已 投入 使 用 。 但 有 的 
该 算法 是 由 


那么 7 指向 的 所 有 网 


法 。 











AK 


每 个 出 链 所 得 到 的 权威 性 等 
值 为 : 


























如 果 网 页 7 指向 网 页 i,， 上 式 





matrix)， 它 表示 的 是 节点 j 输送 给 节点 i 的 权威 
\ 式 可 改写 为 如 下 形式 : 


Pod P PSU 





VERINHFDBER, ERA 
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于 PON; 

















JL 











此 ， 为 了 解决 网 页 
结构 这 一 特点 。 超 链接 图 状 结构 
源 。 超 链接 可 分 为 以 下 两 种 








的 重要 性 排序 分 
个 网 










































































的 权威 性 

















战 重 要 。 超 链接 结构 的 研究 是 社交 网 络 分 析 的 一 
法 由 于 时 间 较 长 ， 如 今 已 不 为 人 
Sergey Brin 和 Larry Page (AK 
为 指向 它 的 所 有 网 页 的 权 
页 均 分 它 的 权威 性 ， 因 此 j 的 











E 式 的 数学 语言 来 








PQ)= 2,4,P()) 





1 
PÉJ Aj =— ; 
FTN 


否则 ， 





Eo ARP 


P(N)) 














tH 





, 网 页 i 的 权威 性 或 PageRank 


CH 0. Aj HU ESEBEXRIAE Cadjacency 





N 个 节点 ， 将 各 个 变量 换 
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如 果 邻 接 矩 阵 满足 特定 条 件 ， 上 式 等 价 于 特征 值 A71 的 特征 系统 。 该 公式 还 可 以 用 马 
尔 可 夫 链 的 相关 术语 来 解释 一 一 4; 称 为 节点 7 到 节点 i 的 转移 概率 ， 节 点 i 的 权威 性 po 
称 为 访问 节点 i 的 概率 。 两 个 (或 更 多 ) 节点 也 许 指向 彼此 ， 但 不 再 指向 其 他 节点 。 那 么 ， 
访问 过 这 两 个 节点 之 后 ， 产 生死 循环 ， 用 户 困 于 这 两 个 节点 之 中 。 这 种 情况 叫 作 rank sink 
GERE A 叫 作 周期 矩阵 )， 解 决 方法 是 增加 逃脱 因子 ， 允 许 随机 从 每 个 网 页 跳 到 另 一 网 页 ， 
而 不 用 遵循 矩阵 4 所 刻画 的 马尔 可 夫 链 : 


»- (£225. a Jp 
N 


KB. E-ee! HN X N 维 的 全 1 矩阵 〈e 为 单位 向 量 )，d (damping factor， 阻 尼 系 数 ) 
表示 转移 矩阵 4 所 定义 的 转移 概率 。(1-d 27 为 随机 访问 一 个 网 页 的 概率 。 公 式 表 明 ， 所 有 
的 节点 相互 连接 ， 即 使 邻接 矩阵 某 一 行 有 多 个 元 素 为 0， 比 如 节点 s 所 在 的 行 。 那么 ,图 状 
结构 中 ,N 个 访问 s 的 节点 ,每 个 节点 都 以 很 小 的 概率 UN Vil] s, Bl 4y=1N。 A E 
和 矩阵， 每 行 所 有 元 素 之 和 为 1; >,4, =1 iE1,*…, N (每 行 至 少 一 个 元 素 不 为 0 或 至 少 每 
网 页 有 一 条 出 链 )。 我 们 对 P 向 量 进行 规范 化 ， 使 得 ep=N， 可 将 公式 简化 为 : 






























































































































































P -(1- d)e* dA P > P(i) (0d) dy APOY, = N 
j=1 
































公式 可 用 震 和 迭代 方法 求解 。 第 8 章 将 用 该 算法 实现 影评 情感 分 析 系 统 。 该 算法 的 
二 不 依赖 于 查询 词 〈 因 此 PageRank 值 可 离线 计算 好 ， 查 询 时 直接 检索 即 可 )。 
此 外 ， 它 还 具有 较 强 的 鲁 棒 性 ， 能 有 效 防范 作 次 ， 因 为 作 浆 者 将 有 影响 力 的 网 页 作为 自己 
MD E Ads 


















































4.2 Web 内 容 控 气 











这 一 类 挖掘 技术 ,着 力 解决 如 何 从 网 页 内 容 抽 取信 息 。 内 容 挖掘 的 常见 过 程 描述 如 下 ; 
收集 网 页 ， 整 理 网 页 内 容 (句法 解析 技术 )， 人 处理 网 页 内 容 ， 删 除 文本 中 不 重要 的 部 分 ( 自 
然 语 言 处 理 技 术 ); 然后 ， 再 用 信息 检索 系统 ， 为 给 定 查 询 词 匹 配 相关 文档 。 下 面 我 们 将 分 
别 讨论 这 3 种 技术 。 


句法 解析 


网 页 为 HTML 格式 ， 因 此 首先 需要 将 相关 信息 从 HTML 代码 中 抽取 出 来 。HTML f 
析 器 构建 标签 树 ， 便 于 从 中 抽取 内 容 。 现 如 今 解 析 器 有 很 多 ， 我 们 拿 Scrapy 库 当 例子 ， 
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提供 了 命令 行 解析 器 , 详 见 第 7 章 。 比如, 我 们 想 解 析 维 基 百 科 的 首页 https://en.wikipedia.org/ 
wiki/Main Page。 只 需 在 终端 输入 : 






































scrapy shell 'https://en.wikipedia.org/wiki/Main Page' 


然后 ， 我 们 就 可 以 在 命令 提示 符 后 ， 用 response 对 象 和 xpath 语言 解析 网 页 。 比 如 ， 
获取 网 页 的 标题 : 











In [1]: response.xpath('//title/text()').extract() 
Out[1]: [u'Wikipedia, the free encyclopedia'] 








skr. dE And LIPPE SEB: Oe putem LfEBI, RIRE ESE, DAE 
我 们 可 以 先 用 Serapy 库 抽 取 链 接 )。 链 接 通 常用 <a> 标 签 ， 且 URL 为 href 的 属性 值 : 















































In [2]: response.xpath("//a/Ghref").extract() 
Out[2]: 

[u'#mw-head', 

u'#p-search', 

u'/wiki/Wikipedia', 

u'/wiki/Free_content', 
u'/wiki/Encyclopedia', 
u'/wiki/Wikipedia:Introduction', 


u'//wikimediafoundation.org/', 
u'//www.mediawiki.org/'] 




















我 们 可 以 考虑 用 鲁 棒 性 更 强 的 方法 解析 网 页 内 容 , 因为 网 页 的 编写 者 通常 不 是 程序 员 ， 
所 以 HTML 代码 也 许 包含 句法 错误 ， 并 且 浏 览 器 可 能 根据 自己 的 理解 对 其 进行 过 修正 。 此 
外 ， 网 页 也 许 包 含 大 量 广告 信息 ， 增 加 了 解析 相关 信息 的 复杂 度 。 如 何 识别 网 页 的 主要 内 
容 ， 人 们 提出 了 几 种 不 同 的 算法 (比如 ， 树 匹配 )， 但 写作 本 书 时 ， 还 没有 相关 的 Python 
库 ， 因 此 我 们 不 打算 进一步 讨论 这 个 主题 。 然 而 ， 请 注意 newspaper 库 实现 的 解析 功能 非 
常 好 用 ， 能 够 抽取 网 页 文章 的 主体 部 分 ， 第 7 章 会 用 到 该 库 。 


4.3 自然 语言 处 理 







































































































































































从 网 页 抽取 文本 内 容 之 后 ， 通 常 要 对 文本 数据 做 预 处 理 ， 删 除 不 提供 任何 相关 信息 的 
部 分 。 对 文本 本 进行 分 词 操作 ， 将 文本 转换 为 单词 列表 ， 删 除 所 有 标点 符号 。 通 常 还 要 删 
除 所 有 的 停 用 词 stop words)， 这 些 词 构成 句子 的 句法 ， 但 不 包含 文本 信息 例如 ， 连 词 、 
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冠 词 和 介词 )， 比 如 a. about. an. are. as. at. be. by. for. from. how. in. is. of. ons 


or. that, the. these. this. to. was. what, when, where. who, will. with 等 。 

















p 


很 多 英语 (或 其 他 语言 ) 单 词 , 词 干 相同 , 但 前 后 级 不 同 ,例如 , think, thinking 和 thinker 
词 干 都 是 think， 这 表明 它们 的 意思 相同 ， 但 在 句子 中 所 起 作用 不 同 (动词 、 名 词 等 )。 将 
上 面 这 样 一 组 单词 还 原 为 词 干 的 过 程 叫 作 词 干 提取 (stemming)， 现 如 今 ， 词 干 提取 算法 有 
多 种 (Porter, Snowball 和 Lancaster)。 所 有 这 些 技 术 都 属于 自然 语言 处 理 这 一 更 为 广阔 的 
算法 范畴 ,nltk 库 用 Python 语言 实现 了 这 些 技 术 (照旧 可 用 sudo pip install nltk 安装 该 库 )。 
举 个 例子 ， 下 面 代 码 用 前 面 提 到 的 技术 ， 处 理 一 段 示 例文 本 〔 在 终端 启用 Python shell): 
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>>> import nltk 

>>> from nltk.tokenize import WordPunctTokenizer 

>>> nltk.download('stopwords') 

[nltk data] Downloading package 'stopwords' to 

[ntk /Users/andrea/nltk_data. .. 

[nltk data] Package stopwords is already up-to-date! 

True 

>>> from nltk.corpus import stopwords 

>>> stopwords = stopwords.words('english') 

>>> tknzr = WordPunctTokenizer() 

>>> from nltk.stem.porter import PorterStemmer 

>>> stemmer = PorterStemmer() 

>>> text = 'The European languages are members of the same family. Many words in a language trans 

late into familiar words in another. For science, music, sport, etc, Europe uses the same vocabul 

ary. Everyone realizes why a new common language would be desirable: one could refuse to pay tra 

nslators.' 

>>> words = tknzr.tokenize(text) 

>>> words 

['The', 'European', 'languages', 'ar 'members', 'of', 'the', 'same', 'family', 

ords', 'in', 'a', 'language', ' 2', 'into', 'familiar', 'word: 'in', 'another' 

r', 'science', ',', 'music', " b B» "» '»', ‘Europe’, 'uses’, 'the', "same', '"\ 

abulary', '.', 'Everyone', 'realizes', 'why', 'a', ' ', 'common', 'language', 'would', 'be', 'd 

esirable', ':', 'one', 'could', 'refuse', 'to', 'pay', 'tronslators', '.'] 

>>> words. clean = [w.lower() for w in words if w not in stopwords) 

>>> words_clean 

['the', 'european', 'languages', ' ; ',', 'many', 'words', 'language', 'translat 

e', 'familiar', 'words', 'another', '. Ty 

，'»'» 'europe', 'uses', 'vocabulary', '.', 'everyone', 'realizes', 'new', 'common', 'language', 

'would', 'desirable', ':', 'one', 'could', 'refuse', 'pay', 'translators', '.'] 

»»» words clean stem = [stemmer.stem(w) for w in words clean] 

>>> Words clean stem 

['the', 'european', 'languag', 'member', 'famili', '.', 'moni', 'word', 'languag', 'translat', 'f 

auiiogr', "word", 'moth', St 'for*, 'scienc', ",*, "music", '";*, 'sport', ",", "atc', T. "aug 
'use', 'vocabulari', '.', 'everyon', 'realiz', 'new', 'common', 'languag', 'would', 'desir 

， 'could', 'refus', 'pay', 'translat', '.'] 











注意 ，stopwords 列表 是 用 nltk dowloader 下 载 的 ， 有 具体 命令 是 nltk.download('stopwords')。 
43. 信息 检索 模型 


为 给 定 查 询 词 寻找 最 相关 的 文档 ， 要 用 信息 检索 方法 。 为 网 页 中 的 单词 建 模 有 多 种 方 
去 ， 比 如 布尔 模型 、 向 量 空间 模型 和 概率 模型 。 我 们 讲 一 下 向 量 空间 模型 及 其 实现 方法 。 
我 们 用 正式 的 语言 来 描述 信息 检索 问题 : 给 定 由 人 个 单词 组 成 的 词汇 表 和 包含 入 个 网 页 的 
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文档 集 ， 每 个 网 页 〈 或 文档 ) 到 可 以 看 作 是 由 单词 组 成 的 向 量 d=wis.…, Wy o Wi 表示 每 个 
单词 7 属于 文档 i. 根据 选用 的 算法 ，wr 可 以 是 数字 (权重 ) 或 向 量 形式 : 
。 词 频 - 逆 文 档 频 率 (Term Frequency-Inverse Document Frequency，TF-IDF)，w;j 是 一 
个 实数 ; 
。 潜在 语义 分 析 (Latent Semantic Analysis，LSA )， 直 是 一 个 实数 〈 词 的 表示 独立 于 文档 六 ; 
e Doc2Vec《〈 或 word2vec)，wi 由 实数 组 成 的 向 量 ( 独 立 于 文档 i 的 表示 )。 
由 于 查询 词 也 可 以 表示 为 单词 向 量 qois ss wu ,计算 查询 词 向 量 和 文档 向 量 的 相似 


度 ， 可 找到 跟 向 量 q 最 相似 的 网 页 。 最 常用 的 相似 度 度量 方法 叫 作 余弦 相似 度 ， 对 于 任意 
文档 i， 文 档 和 查询 词 的 相似 度 为 : 





















































































































































5 
Wy Wio 

2 
注意 ， 文献 中 还 会 使 用 其 他 度量 方法 (Okapi 和 pivoted normalization weighting), 但 是 
ES 。 
下 面 几 节 ， 我 们 详细 介绍 这 3 种 建 模 方 法 ， 最 后 讲 如 何 将 其 用 于 文本 处 理 。 


























































































































1. TF-IDF 

该 方法 在 计算 wj 时 ， 考虑 到 了 这 样 一 个 事实 ,在 一 个 网 页 中 出 现 多 次 并 在 大 量 网 页 出 
现 的 单词 ， 其 重要 性 低 于 在 一 个 网 页 出 现 多 次 但 仅 在 少数 网 页 出 现 的 单词 。TF-IDF 值 由 以 
下 两 个 因子 相 乘 得 到 : 

wy-tfjxidf, H: 





































































































e f= 文档 i 中 单词 j 的 归 一 化 词 频 (normalized frequency )。 
!oamax fi,.. ,fh 


二 








N MM i AY fa ` MEX NA 
. MM df, AR f] j 的 网 页 数量 。 
j 


2. 潜在 语义 分 析 (LSA) 
该 算法 的 名 称 来 自 于 如 下 想法 ， 每 个 单词 〈 文 档 ) 在 潜在 空间 可 以 得 到 充分 地 描述 ， 
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假定 意思 相似 的 单词 忆 
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4.3 


E 文 本 中 出 现 的 位 置 也 相似 。 单 词 在 子 空间 的 映射 ， 
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] 〈 截 断 ) 奇异 









































直 分 解 方法 来 计算 ， 该 方法 在 第 2 章 已 介绍 过 。 将 奇异 值 分 解 方法 























含 所 有 网 页 的 文档 集 用 算 阵 了 (VxN 维 ) 表示 ， 


U, (V4) 为 映射 到 4a 维 
BUE, X, (dg 为 包含 奇异 值 的 对 角 和 矩阵 。 查 询 ; 


























X=U,>, 














新 潜在 空间 





























op 





T 
JF, 


列表 示 


的 单词 矩阵 , x V (dW) 为 转换 到 子 空间 的 文档 的 转 置 
































BOB. d$ 








wok 





N 








表达 式 为 ,VF Ch VO. Bl 
考虑 在 内 。 因 而 ， 文 档 外 














m 





并且 尚 不 清楚 如 


























JF LSA 算法 ， 那 么 包 
篇 文档 : 




















司 向 量 按 如 下 方式 映射 到 潜在 空间 : 


q, -qU,E, 





的 每 一 行 所 表示 的 文档 跟 qu 的 余弦 相似 度 。 注 意 ， 





为 奇异 值 是 空间 角 






































3. Doc2Vec(word2vec) 





该 方法 将 每 个 单词 w, 
等 人 发 明 的 word2vec 


BEEN Eq 相 比 较 。 然 而 ， 我 们 通常 计 
实际 应 用 中 哪 种 方法 效果 最 好 。 








示 成 狐 





























决定 讲 





一 下 这 种 非常 高 级 的 方法 ， 介 绍 其 





的 比例 因 




















子 (scaling factor)， 因 


文档 在 潜在 空间 的 数 





此 需要 将 
































法 的 扩展 ，Doc2Vec 算法 采用 
文档 ) 向 量 。 鉴 于 神经 网 络 (尤其 是 深度 学 习 )〉 在 很 多 机 器 学 习 应 用 中 重要 性 日 
主要 概念 和 公式 。 对 于 各 个 领域 的 机 器 学 习 ， 神 
































经 网 络 这 
的 论文 ， 下 


























方法 将 











变 得 极其 
































的 是 VA qi 的 相似 





LET BABIES d; 的 向 量 vy. Doc2Vec 是 Mikolov 
经 网 络 和 反 向 传播 方法 生成 词 《和 


























4. word2vec 一 一 连续 词 袋 和 Skip-gram 架构 


将 词汇 表 V 中 的 每 个 单词 j 表示 为 长 度 为 | 的 向 量 ， 向 量 的 每 个 元 素 " 为 二 进 制 
































xy Xyj) H 





中 只 有 xl, 





























N NY 








选取 一 种 ， Y 


L1 
ZN 











不 是 深度 学 习 ， 


| 练 由 
包含 NN 个 神经 元 或 权重 有 


后 者 通常 指 含 有 多 层 隐 含 











CBOW) JjiX (B 


Z] 





4.1 右 侧 ) 使 月 





的 一 















































与 输入 的 上 下 文 相 邻 的 单词 〈 


输入 ， 训 练 网 络 预测 目 





目标 )。 

















标 单词 














标 词 多 远 的 位 置 选择 上 下 文 : 





Q 分 量 。 一 一 译 者 注 








其 余 均 为 0。word2vec 方法 从 两 
经 元 〈 带 权重 ) 组 成 的 一 层 〈 隐 含 层 ) 神经 网 络 。 这 两 种 架构 都 
层 神经 网 络 。 因 此 ， 我 们 可 将 ; 


增 ， 我 们 





重要 。 下 面 的 内 容 是 基于 Rong (2014)、Le 和 Mikolv (2014) 
看 提 到 的 这 些 术 语 也 正 是 当今 文献 所 使 用 的 。 


























网 络 架构 〈 见 图 


北方 法 看 作 是 浅 层 学 习 而 
层 的 网 络 。 连 续 词 袋 (Continuous Bag Of Words, 
H C 个 单词 作为 输入 《〈 叫 作 上 下 文 ) 训练 模 型 ， 尝 试 预测 
该 方法 的 逆 操 作 叫 作 Skip-gram， 它 以 目标 单词 作为 
的 上 下 文 (图 4.1 左 侧 )。C 叫 作 窗 口 参数 ， 它 指定 从 距离 目 


4.1) 中 
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Input layer 








Wy 
Hidden layer Hidden layer- Output layer 
Wy d: Wy X PA, Www 

J N-dim ~ 

Wyxy 

CxV-dim 




















Da 








41 word2vec 算法 的 Skip-gram (Æ) 和 CBOW CH) 架构 ， 该 图 摘自 
XRong (2015) 所 写 的 “word2vec Parameter Learning Explained" 


这 两 种 情况 ， 和 矩阵 OW 将 输入 向 量 转换 为 隐 含 层 ， 将 隐 含 层 WC ENS y, 
计算 得 到 目标 (或 上 下 文 ;。 训 练 阶 段 ， 计 算 真正 的 目标 单词 (或 上 下 文 ) 的 错误 率 ， 
并 用 随机 梯度 下 降 , 更 新 不 和 丈 窍 阵 。 我 们 将 在 下 一 节 给 出 CBOW 方法 更 为 数学 化 的 
表述 。 请 注意 ，Skip-gram 等 式 与 之 类 似 ， 我 们 将 参照 Rong (20150 的 论文 ， 更 为 详细 
地 介绍 。 


5. CBOW 模型 的 数学 表述 























































































































模型 从 输入 层 开始 进入 到 隐 含 层 h KAE 可 通过 计算 1= WA etn) 

















1 A EA ` mm 一 E3 MZ 
e w +…+w )=ve 得 到 ， 其 中 ， vy, 向 量 长 度 为 N, 它 表 示 隐 舍 慨 单 词 Wio We 是 C 上 下 


文 向 量 ww 的 均值 。 选 定 目标 词 w， 向 量 ve WHR j ID 乘 以 h 就 可 以 得 到 输出 层 
wj 的 值 : 











二 j 
u, =v, eh 


这 还 不 是 输出 层 yy 的 最 终 值 ， 因 为 我 们 想 计算 的 是 给 定 上 下 文 C， 目 标 词 w; 的 后 验 概 
率 ， 用 softmax 公式 表示 上 下 文 ，yj 的 计算 方式 如 下 : 
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e" e" vc 
y, 2 p(w; ni. we)= 中 
e" e" ve 
i-l i= 
现在 ， 训 练 目标 是 ， 对 于 词汇 表 所 有 单词 ， 最 大 化 这 一 概率 ， 这 等 价 于 mer 
(w Im. wc) > E =-maxlog p(w, Iw. We) 2 —V,, m» , 其 中 max(v; - devi, A, 
Fs j" dez en fi WW 中 使 得 乘积 最 大 化 的 元 素 ， 也 就 是 最 可 能 的 目标 词 。 
Ef W (w) 和 WW'(w') 求 偏 导 ， 可 得 到 随机 梯度 下 降 公 式 。 作 为 输出 的 每 个 目标 词 wj 
其 计算 公式 如 下 : 
oj 
j j Ou, 
!new rold 1 ; OF OF OF ` ` MER 
=V —Q———N, Lx SC, 其 中 = se , 为 梯度 下 降 的 学 习 速 率 。 
wj wj C J € eh z Oh, a pd Ea 
Bj QE — "E A ET ds 
导数 < cy, - 8, 表示 网 络 与 实际 目标 词 之 间 的 错误 率 。 在 系统 中 反 向 传播 错误 率 ， 实 
ôu. j 
了 
现在 迭代 中 学 习 。 注 意 Vv Vtt 是 语义 计算 常用 的 词 向 量 (word representations)。 





更 多 细节 见 Rong (20150 的 论文 。 


6. Doc2Vec 扩展 












































Le 和 Mikolov 在 论文 (2014) 中 解释 过 ， 
Doc2Vec 是 word2vec 方法 自然 而 然 的 扩展 ， 
Doc2Vec 将 文档 看 作 是 额外 的 词 向 量 。 因 此 ， 对 
T CBOW 架构 , 隐 舍 层 向 量 h 为 上 下 文 向 量 和 文 
档 向 量 4; 的 均值 : 

h= EW +**+xc +d;) 
(V, VV +V )= ve 
Cn 1 


图 4.2 所 示 的 架构 叫 作 分 布 记忆 模型 (Distri 
buted Memory Model, DM), ET 








因为 文档 di Eh 











ji 
MS 


| Uu 


J 示例 ， 上 下 文 包含 3 个 词 
Le 和 Mikolov (2014) 











图 4.2 


Cwindow-3); 


分 布 记忆 模型 
T EHI 


BIS] “Distributed Representations of Sentences 




















jj 

















上 下 文 词语 没有 表示 出 来 的 文档 信息 。 从 文档 di ARE 
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得 到 〈sample) 的 所 有 上 下 文 词 共 月 





有 vs， 但 是 对 于 所 有 文档 ， 旬 





BEE WwW UWO 都 是 相同 的 。 





另 一 种 架构 叫 作 分 布 词 袋 (Distributed Bag of Words，DBOW 1)， 输 入 层 仅 考虑 一 篇 文 





档 向 量 ， 输 出 层 给 出 从 文档 采样 得 




















到 的 一 组 上 下 文 词 语 。 经 验 表明 DM 架构 比 DBOW 架 


构 效 果 好 ， 因 此 DM 是 gensim 库 默 认 使 用 的 模型 。 建 议 读者 读 一 下 Le 和 Mikolov 在 2014 








年 发 表 的 论文 ， 了 解 更 多 细节 。 
7. 影评 查询 示例 


我 们 使 用 Bo Pang 和 Lillian Lee 提供 的 IMBD &il 
索 模 型 实际 用 




















: 














法 。 数据 下 载 地 址 为 http://www.cs.cornell. 
青 下 载 polarity dataset v2.0 和 Pool of 27886 unprocessed html files 两 个 文 伯 
岂可 以 从 作者 的 GitHub 主页 下 载 ， 地 址 为 https://github.com/ai2010/machine learning - 
for the web/tree/master/chapter 4/)。 从 网 站 下 载 movie.zip 〈 实 际 下 载 下 来 的 文 从 


数据 ， 演 示 前 面 讨论 的 3 种 信息 检 





edu/people/pabo/movie-review-data/, 


Fo (数据 集 和 代码 














F 叫 作 








polarity_html.zip)， 解 压 后 生成 movie WFR, 4 
文件 )。 首 先 ， 读 取 这 些 文件 ， 准 备 数 所 





= 


十 : 














面 存放 了 所 有 的 影 


网 页 (大约 2000 个 











In [1]: #import files 

import os 

import numpy as np 

#get titles 

from BeautifulSoup import BeautifulSoup 

moviehtmldir = './movie/' 

moviedict - () 

for filename in [f for f in os.listdir(moviehtmldir) if f[0]!*'." 
id = filename.split('.')[0] 
f = open(moviehtnldir*'/'«filename) 
parsed html = BeautifulSoup(f.read()) 


try: 
title * parsed html.body.hl.text 


except: 
title = 'none* 
moviedict[id] = title 











然后 ， 我 们 月 











它 的 两 个 子 文件 夹 分 别 存放 着 积极 和 消极 影 i 





H BeautifulSoup 从 每 个 HTML 页 面 解析 
字典 。polarity dataset v2.0.tar.gz 包含 review polarity 文件 夹 ， 该 文 伯 
P (pros fll cons). H FE 


ja 
Li 





网 页 的 标题 (title)， 创 建 moviedict 
F 夹 下 有 txt sentoken 文件 夹 ， 
代码 预 处 理 这 些 文件 : 









































In [99]: import nltk 
from nltk.corpus import stopwords 
from nltk.tokenize import WordPunctTokenizer 
tknzr = WordPunctTokenizer() 
nltk.download|'stopwords')j| 
stoplist = stopwords.words('english') 
from nltk.stem.porter import PorterStemmer 
stemmer = PorterStemmer() 
def ListDocs(dirname): 

docs - [] 

titles = [] 


f = open(dirname*'/'«filename,'r' 
id = filename.split('.' )[0].split(" 
titles.append(moviedict[id]) 
docs.append(f.read()) 

return docs,titles 


O 


dir = './review_polarity/txt_sentoken/' 
pos textreviews,pos titles = ListDocs(dir*'pos/') 
neg textreviews,neg titles = ListDocs(dir*'neg/') 
tot textreviews = pos textreviewstneg textreviews 
tot titles = pos titles/neg titles 





for filename in [f for f in os.listdir(dirname) if str(f)[0]!*'.']: 
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现在 ， 我 们 已 将 2000 条 影评 存储 到 tot textreviews 列表 ， 网 页 标题 存储 到 tot titles 列 
表 。 我 们 用 skleam 的 TF-IDF 实现 ， 训 练 TF-IDF 模型 ; 























In [4]: #test tf-idf 
from sklearn.feature extraction.text import TfidfVectorizer 


def PreprocessTfidf(texts,stoplist-[],stem-False): 
newtexts = [] 
for text in texts: 


if stem: 

tmp = [w for w in tknzr.tokenize(text) if w not in stoplist] 
else: 

tmp = [stemmer.stem(w) for w in [w for w in tknzr.tokenize(text) if w not in stoplist]] 
newtexts.append(' '.join(tmp)) 


return newtexts 
vectorizer = TfidfVectorizer(min df-1) 
processed reviews - PreprocessTfidf(tot textreviews,stoplist,True) 
mod tfidf - vectorizer.fit(processed reviews) 
vec tfidf = mod tfidf.transform(processed reviews) 
tfidf = dict(zip(vectorizer.get feature names(),vectorizer.idf )) 























上 述 代码 PreprocessTfidf 函数 后 ， 预 处 理 每 篇 文档 〈 删 除 停 用 词 、 分 词 和 提取 词 干 )。 
同 理 ， 用 gensim 库 的 LSA 实现 ， 训 练 LSA 模型 ， 指 定 10 个 潜在 维度 (latent dimension): 




















In [5]: Wtest LSA 
import gensim 
from gensim import models 
class GenSimCorpus(object): 
def — init (self, texts, stoplist-[],stem-False): 
self.texts - texts 
self.stoplist - stoplist 
self.stem = stem 
self.dictionary - gensim.corpora.Dictionary(self.iter docs(texts, stoplist)) 


def len (self): 
return len(self.texts) 
def _ iter (self): 
for tokens in self.iter docs(self.texts, self.stoplist): 
yield self.dictionary.doc2bow(tokens) 
def iter docs(self,texts, stoplist): 
for text in texts: 
if self.stem: 
yield (stemmer.stem(w) for w in [x for x in tknzr.tokenize(text) if x not in stoplist]) 
else: 
yield (x for x in tknzr.tokenize(text) if x not in stoplist) 


corpus = GenSimCorpus(tot textreviews,stoplist,True) 

dict corpus = corpus.dictionary 

ntopics = 10 

lsi = models.LsiModel(corpus, num topics-ntopics, id2word-dict corpus) 





























注意 GenSimCorpus 函数 用 常用 技术 预 处 理 文档 , 将 文档 转换 为 gensim 的 LSA 实现 可 
以 读 取 的 格式 。 我 们 能 够 从 Isi 对 象 获取 到 U、 广 和 S 和 矩阵 ， 将 查询 词 转换 到 潜在 空间 需要 
用 到 的 这 些 和 矩阵 : 








In [6]: U = 1si.projection.u 
Sigma = np.eye(ntopics)*lsi.projection.s 
fcalculate V 
V = gensim.matutils.corpus2dense(lsi[corpus], len(lsi.projection.s)).T / lsi.projection.s 
dict words = () 
for i in range(len(dict corpus)): 
dict words[dict corpus[i]] = i 











经 过 计算 ， 我 们 得 到 了 单词 的 索引 字典 dict words， 将 查询 词 转换 为 它 在 dict corpus 
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最 后 训练 模型 是 Doc2Vec。 首先 , 按照 gensim 的 Doc2Vec 实现 能 够 处 理 的 格式 , 准备 好 数据 : 











In 





[7]: from collections import namedtuple 
def PreprocessDoc2Vec(text,stop-[],Stem-False): 
words - tknzr.tokenize(text) 
if stem: 
words clean - [stemmer.stem(w) for w in [i.lower() for i in words if i not in stop]] 
else: 
words clean = [i.lower() for i in words if i not in stop] 
return words clean 


Review = namedtuple('Review','words tags') 

dir = './review polarity/txt sentoken/' 

do2vecstem - False 

reviews pos = [] 

cnt = 0 

for filename in [f for f in os.listdir(dir*'pos/') if str(£f)[0]!='.']: 
f = open(dir+'pos/'+filename,'r') 
reviews pos.append(Review(PreprocessDoc2Vec(f.read(),stoplist,do2vecstem),['pos '*str(cnt)])) 
cnt+=1 


reviews neg = [] 

cnt= 0 

for filename in [f for f in os.listdir(dir*'neg/') if str(f)[0]!-»'.']): 
f = open(dir*'neg/'^filename,'r') 
reviews neg.append(Review(PreprocessDoc2Vec(f.read(),stoplist,do2vecstem),['neg '*str(cnt)])) 
cnt+=1 


tot_reviews = reviews_pos + reviews_neg 





除 停 


的 效 














将 每 条 评论 置 于 一 个 namedtuple 对 象 之 中 ， 该 对 象 包含 PreprocessDoc2Vec 函数 O 














i 


用 词 并 分 词 ) 处 理 过 的 单词 和 表示 文件 名 称 的 标签 。 请 注意 ， 我 们 没有 提取 词 干 ， 
为 我 们 发 现 不 提取 词 王 效果 更 好 〈 读 者 可 将 布尔 型 标记 doc2vecstem 置 为 True， 试 试 词 干 














果 如 何 )。 用 以 下 代码 完成 Doc2Vec 训练 : 








I 





n [8]: define doc2vec 
from gensim.models import Doc2Vec 
import multiprocessing 


cores = multiprocessing.cpu count() 
vec size - 500 
model d2v = Doc2Vec(dme1, dm concat*0, size*vec size, window*10, negative*0, hs*0, min count*1, workers*cores) 


#build vocab 
model d2v.build vocab(tot reviews) 
ftrain 
numepochs* 20 
for epoch in range(numepochs): 
try: 
print 'epoch $d' $ (epoch) 
model d2v.train(tot reviews) 
model d2v.alpha *= 0.99 
model d2v.min alpha = model d2v.alpha 
except (KeyboardInterrupt, SystemExit): 
break 











我 们 设置 好 用 DM 架构 〈dm=1)， 隐 含 层 为 500 2E 〈 大 小 )， 窗 口 大 小 为 10 个 单词 ， 








将 所 

















至少 出 现 1 次 的 单词 (min count=1) 纳入 模型 。 其 余 参数 与 效率 优化 方法 有 关 





(negative 指 的 是 负 采 相 


É, hs 指 的 是 hierarchical softmax， 也 称 为 层次 softmax)。 训 练 持续 





了 20 个 epoch《〈 步 数 )， 学 习 速率 为 0.99。 
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PTE ET E NIS Heg 比如 定义 如 下 查询 词 ， 检 索 所 有 跟 科幻 1 
相关 的 网 页 文档 。 这 里 所 说 的 科幻 电影 也 就 是 通常 能 用 下 面 列表 中 的 单词 描述 的 电影 : 









































In [9]: peuery 
query = ['science','future','action'] 











用 TF-IDF 模型 返回 5 个 与 查询 词 最 相似 的 网 页 ， 代 码 如 下 : 


In [10]: #similar tfidf 
#sparse matrix so the metrics transform into regular vectors before computing cosine 
from sklearn.metrics.pairwise import cosine similarity 
query vec - mod tfidf.transform(PreprocessTfidf([' '.join(query)],stoplist,True)) 
sims- cosine similarity(query vec,vec tfidf)[0] 
indxs sims - sims.argsort()[::-1] 
for d in list(indxs sims)[:5]: 
print 'sim:',sims[d],' title:',tot titles[d] 









































E^ 
D. iz 


E ps 稀疏 矩阵 存储 数据 ， 因 此 用 cosine similarity 函数 将 稀疏 向 量 


























量 ， 这 点 要 注意 。 然 后 ， 再 计算 相似 度 。LSA 模型 处 理 方式 类 似 ， 将 查询 词 转换 为 qi， 
RE 相似 的 网 页 : 





ligi 














然 





In [11]: [LSA query 
def TransformWordsListtoQueryVec(wordslist,dict words,stem-False): 
q 7 np.zeros(len(dict words.keys())) 
for w in wordslist: 


if stem: 
q[dict words[stemmer.stem(w)]]-1. 
else: 
qldict words[w]] = 1. 
return q 


q = TransformWordsListtoQueryVec(query,dict words,True) 
qk = np.dot(np.dot(q,U),Sigma) 


sims - np.zeros(len(tot textreviews)) 

for d in range(len(V)): 
sims[d]-»np.dot(ak,V[d]) 

indxs sims = np.argsort(sims)[::-1] 

for d in list(indxs sims)[:5]: 
print 'sim:',sims[d],' doc:',tot titles[d] 











最 后 ，doc2vec 模型 用 infer vector KZK rif is] Fl e Ped JI]. most similar 函数 返 











回 最 相似 的 影评 





In [12]: #doc2vec query 
#force inference to get the same result 
model d2v.random = np.random.RandomState(1) 
query docvec = model d2v.infer vector(PreprocessDoc2Vec(' '.join(query),stoplist,do2vecstem)) 


reviews related = model d2v.docvecs.most similar([query docvec], topn-5) 
for review in reviews related: 
print 'relevance:',review[1],'  title:',tot titles[review[0]] 




















固定 值 ， 以 返回 确定 的 结果 。 结 果 如 下 : 
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sim: 
sim: 
sim: 
sim: 
sim: 





177948650457 
177821146567 
.173783798661 
-163031796224 
160582512878 


ooooco 


title: 
title: 
title: 
title: 
title: 


No Telling (1991) 

Total Recall (1990) 

Time Machine, The (1960) 
Bicentennial Man (1999) 
Andromeda Strain, The (1971) 











sim: 
sim: 
sim: 
sim: 





sim: 


.0370254245 doc: 


Star Wars: 


Episode I - The Phantom Menace (1999) 


NNUU A 


-41798397445 
41131742531 
99980957062 
.86164366049 


doc: 
doc: 
doc: 
doc: 


Alien&£179; (1992) 
Rocky Horror Picture Show, The (1975) 
Starship Troopers (1997) 
Wild Things (1998) 








e Doc2Vec: 





relevance: 
relevance: 
relevance: 
relevance: 
relevance: 


ooooo 





129549503326 
124721623957 
122562259436 
-119273915887 
-118506141007 


title: 
title: 
title: 
title: 
title: 


Lost World: Jurassic Park, The (1997) 
In the Heat of the Night (1967) 
Charlie's Angels (2000) 
Batman & Robin (1997) 
Pok&£233;mon: The Movie 2000 (2000) 














3 种 方法 返回 









































的 电影 中 均 有 和 查询 词 相关 的 。 有趣 的 是 ，TF-IDF 算法 比 更 高 级 的 LSA 


和 Doc2Vec 算法 效果 要 好 ， 因 为 这 些 算法 返回 结果 中 的 In the Heat of the Night, Pokemon v 


Rocky Horror Picture Show 和 Wild Things 与 查询 词 无 关 ， 而 TF-IDF 


的 返回 结果 仅 有 











部 电 


ae 











$^ (No Telling) 与 查询 词 无 关 。Charlie's Angels 和 Batman & Robin 这 两 部 是 动作 片 ， 因 此 

















它们 与 身 


学 到 好 的 向 











十 亿 甚 至 更 多 的 文档 )。 康 
movie-review-data/ 提 供 一 个 更 大 的 数据 集 ， 


4.4 信息 的 


从 Web 上 收集 来 网 页 之 后 ， 我 们 可 以 ) 


Web 搜索 引擎 ， 或 月 


个 查询 词 action 相关 改 
量 表示 ， 该 算法 需要 较 大 的 训 








FE 最 大 。Doc2Vec 











蒜 尔 





后 处 理 





析 Clatent Dirichlet analysis ) 


4.4.1 








这 也 正 




















4E; Aan 
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结果 最 差 ， np 
练 集 (例如 ， 





要 是 





是 因为 训练 集 太 小 ， 


无 法 


谷歌 发 布 的 word2vec 训练 集 包含 几 
机 学 院 网 站 http://www.cs.cornell.edu/people/pabo/ 
读者 可 尝试 练习 用 更 多 的 数据 训练 Doc2Vec 模型 。 
































o 


自然 语言 处 型 
于 其 他 商业 目的 。 我 们 下 面 讨论 从 文档 集 抽取 主 
法 , 以 及 从 每 个 网 页 抽取 情感 和 观点 的 技术 (观点 提 


潜在 狄 利 殉 雷 分 配 


潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation, LDA) 是 一 
然 语言 处 理 算法 。 该 技术 是 基于 以 下 观察 ， 
是 观察 到 的 数据 相似 或 不 同 的 原因 














算法 从 中 抽取 相关 信息 ， 构 建 
的 潜在 狄 利克 雷 分 














尊重 








种 属于 生成 模型 


























ZI BOR). 


范畴 的 自 





ERRIN 





一 些 变量 可 以 用 潜在 、 未 观察 到 的 变量 来 解释 ， 
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例如 ， 对 于 文本 文档 而 言 ， 单 词 是 观察 到 的 变量 ， 而 每 篇 文档 可 以 是 多 个 主题 〈 未 观 
察 到 的 变量 ) 灶 合 在 一 起 形成 的 ， 每 个 单词 指向 一 特定 主题 。 


例如 ， 下 面 两 篇 描述 两 家 公司 的 文档 : 
























































e 文档 1: Changing how people search for fashion items and, share and buy fashion via visual 





recognition, TRUELIFE is going to become the best approach to search the ultimate trends .. 9 


e 文档 2: Cinema4you enabling any venue to be a cinema is a new digital filmed media 
distribution company currently in the testing phase. It applies technologies used in 


Video on Demand and broadcasting to ... 9 


LDA 可 自动 发 现 这 些 文档 所 包含 的 潜在 主题 。 例 如, 给 定 以 上 两 篇 文档 LDA 也 许 返 
回 以 下 与 每 个 主题 相关 的 词语 ; 





e 主题 1: people Video fashion media... CAMI 视频 时 尚 媒体 …… ) 
。 主题 2: Cinema technologies recognition broadcasting...〈 影 院 技术 识别 播放 …… ) 





因而 ， 可 将 第 2 个 主题 标记 为 技术 ， 第 1 个 主题 标记 为 商业 。 
然后 ， 可 将 文档 表示 为 多 个 主题 的 混合 体 ， 文 档 中 的 单词 以 一 定 的 概率 分 属于 不 同 的 主题 : 
e 文档 1: 主题 1 42%、 主 题 2 64% 




















。 文档 2: 主题 1 21%、 主 题 2 79% 

这 种 文档 表示 方法 可 用 于 多 种 应 用 ， 比 如 将 多 个 网 页 分 为 不 同 的 组 或 从 一 组 网 页 中 抽 
取 主 要 的 共同 主题 。 下 一 节 ， 我 们 解释 该 算法 背后 的 数学 模型 。 

1. 模型 

文档 表示 为 潜在 主题 的 随机 组 合 ， 每 个 主题 用 词语 的 分 布 来 刻画 。 假 定 文档 集 包含 M 


篇 文档 d=(4d1,…, dw)， 每 篇 文档 i 包含 Nj 个 单词 。 如果 人 是 词汇 表 的 长 度 ， 文档 i 的 每 个 单 
词 表示 为 长 度 为 六 的 向 量 w;， 其 中 只 有 元 素 w=1， 其 余 元 素 为 0: 


Wi— (0... wi -l'7) 


潜在 维度 〈 主 题 ) IRURE KG HTAR, Ern, zw) 为 每 个 单词 wi 对 应 的 主题 向 






































































































































(D 译文 是 “TRUELIFE 正在 用 视觉 识别 方法 改变 人 们 搜索 、 分 享 和 购买 时 尚 用 品 的 方式 ， 它 即将 变 为 搜索 终极 潮流 的 最 佳 方式 ……”。 
姑 为 正文 下 面 涉及 单词 分 属 不 同 主题 概率 的 计算 ， 所 以 正文 仍 用 英文 。 下 同 。 译 者 注 
@ 译文 是 “Cinema4you 是 一 家 新 型 的 数字 化 影视 媒体 分 销 公 司 ， 它 可 将 任何 会 场 升级 为 影院 ， 它 目前 处 于 试 运营 阶段 。 它 采 
视频 点 播 技术 ， 播 放 ……” 一 一 译 者 注 
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量 。z; 向 量 长 度 为 K， 除 去 第 j 个 元 素 zy 为 1， 其 余 元 素 缘 为 0，z;/ 表示 单词 w KAWE. 
b 为 Kx 矩阵 ，bj 表 示 词 汇 表 的 每 个 单词 采 自 主题 i 的 概率 : ppw ==). 
因此 ，2 的 每 一 行 i 表示 单词 在 主题 i 下 的 分 布 ， 而 每 一 列 j 表示 主题 在 单词 下 的 分 

布 。 我 们 用 以 上 定义 来 描述 LDA 算法 : 

(D 从 选 定 的 分 布 〈 通 常 为 泊 松 )， 采 样 得 到 每 篇 文档 N 的 长 度 。 


(2) 对 于 每 篇 文档 d;， 采 样 一 个 主题 分 布 g;， 作 为 狄 利克 雷 分 布 Dir(a), KB iE 1,… 
M, a 参数 是 一 个 长 度 为 K 的 向 量 ， 使 得 






























































"(S| z 
p a) =] 0 





(3) JA E UA) fl z,—Multinominal(0)K FE SCA di 中 单词 n 的 主题 。 


(4) 对 于 每 篇 文档 4d;、 每 个 单词 n 和 每 个 主题 a,,， 从 由 45 B5 z, TR ERU TSIASUT lw, 
Bzy 采样 生成 单词 Wno 


算法 的 目标 是 ， 对 于 每 篇 文档， 最 大 化 后 验 概率 











































































































_ (0. z.d |o. p) 
PE Fu id a 
根据 条 件 概率 的 定义 ， 分 子 变 为 : 
p(0,z,dila,B)=p(dilz,B)p(z,l0,)p(0.l0) 
因此 ， 给 定 主 题 向 量 z 和 单词 概率 矩阵 5， 文档 ; 的 概率 可 以 表示 为 单个 单词 概率 的 连 乘 : 
p(4.5)- [ A4... 


























由 于 z 这 个 向 量 ， 只 有 第 j ATA z=, MORTUO. WA p(z0)-(0); FARA 
上 面 的 式 (2): ? 








© 18 p(Q, 2. di | a, B) = p(d;| 2. P) pQ. |Q) p(QiQ)。 一 一 译 者 注 
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(1)“ 式 的 分 母 ， 即 文档 的 边缘 分 布 ， 对 di 积分 ， 对 z 求 和 就 能 得 到 。 主 题 分 布 % 的 最 


























终结 果 和 每 个 主题 分 布 (b 矩阵 的 各 行 ) 下 的 单词 概率 , 用 近 




















方法 来 求解 ， 这 些 内 容 超 出 了 本 书 的 范围 。 


ITET Capproximated inference? 























参数 a 叫 作 和 集中 参数 Cconcentration parameter), 它 表 明 分 布 扩展 到 可 能 的 值 上 的 程度 。 














Na 

















中 参数 值 为 1 CR k IKA HEDA RER, ERRAT 














相等 。 而 集中 参数 取 接近 0 的 极 值 时 ， 所 得 到 的 分 布 中 几乎 所 有 主题 





个 主题 〈 各 单词 不 再 分 属于 不 同 的 主题 ， 它 们 分 属于 少数 几 个 主题 ) 





举 个 例子 ，10 万 维 的 类 别 分 布 (categorical distribution, is] | 
许 由 几 百 个 单词 表示 。 因 此 ， 集 中 参数 标准 取 值 在 0.01 和 0.001 之 间 ， 如 果 词 汇 车 高 达 百 
































万 级 甚至 更 高 ， 那 么 集中 参数 的 取 值 还 要 更 小 。 








生 用 的 定义 )， 各 组 的 概率 
可 能 都 集中 到 其 中 一 





L5 10 万 ,一 个 主题 也 














根据 L. Li fI Y. Zhang 的 论文 An. empirical study of text classification using Latent Dirichlet 
Allocation CF] LDA 为 文本 分 类 的 实证 研究 )，LDA 可 以 用 作文 本 模型 的 降 维 方法 ， 非 常 有 效 。 
然而 ， 即 使 该 方法 在 多 种 应 用 上 表现 不 错 ， 还 是 有 一 些 问题 要 考虑 。 模 型 









































表明 每 次 运行 结果 可 能 不 同 。 此 外 ， 集 中 参数 的 选取 也 很 重要 ， 但 


2. LDA 主题 分 类 示例 


















































的 初始 化 是 随机 的 ， 这 
还 没有 标准 化 的 选取 方 沪 





us 


o 





我 们 再 次 用 影评 网 页 数据 集 textreviews, Œ 4.3.1 小 节 中 的 “7. 影 评 查 询 示 例 ” 中 已 
预 处 理 过 。 我 们 接 下 来 测试 LDA 模型 是 否 能 够 将 影评 分 成 不 同 的 主题 。 下 面 代码 已 经 
放 到 我 的 GitHub 主页 ， 请 从 https:// sifu com/ai2010/machine learning for the web/tree/ 


















































master/chapter 4/ 下 载 postprocessing.ipynb 这 个 文件 





o 








In [6]: £LDA 
import gensim.models 
from gensim import models 


from nltk.tokenize import Re 
tknzr = RegexpTokenizer(r' m» I” Nel) ao L^\w\s]) | (\W))+', gapseTrue) 





(self.texts, self.stoplist): 
s 





ur" len(self.bestwor: reed 


num topici 
orpus = Gen Saeco s(tot textreviews, stoplist,[],False) 
dict lda = corpus.dictionary 





= bi 
self.dictionary = gensim.corpora.Dictionary(self.iter docs(texts, 


stoplist)) 


E (stemmer.stem(w) for w in [x for x in tknzr.tokenize(text) if x 


ye eld (x for x in tknzr.tokenize(text) if x in self.bestwords) 


else 
eee eld (x for x in tknzr.tokenize(text) if x not in stoplist) 


not in stoplist]) 











CD 原 书 未 标明 的 〈1) 式 ， 指 的 是 最 大 化 后 验 概率 的 那个 式 子 。 一 一 译 者 注 
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我 们 照旧 对 每 篇 文档 进行 分 词 〈 这 次 使 用 另 一 个 分 词 器 )， 并 且 删 除了 停 用 词 。 为 了 得 
到 更 好 的 结果 ， 我 们 过 滤 掉 不 会 给 网 页 增加 任何 信息 、 出 现 频率 最 高 的 词语 (比如 movie 
和 fm)。 我 们 忽略 出 现 次 数 在 1000 次 以 上 或 少 于 3 次 的 单词 : 


In [7]: import copy 
#filter out very common words like mobie and film or very unfrequent terms 
out ids = [tokenid for tokenid, docfreq in dict lda.dfs.iteritems() if docfreq > 1000 or docfreq < 3 ] 
dict lfq = copy.deepcopy(dict lda) 
dict lfq.filter tokens(out ids) 
dict lfq.compactify() 
corpus = [dict lfq.doc2bow(tknzr.tokenize(text)) for text in tot textreviews] 


现在 ， 我 们 可 以 训练 10 个 主题 的 LDA 模型 (passes 为 用 整个 文档 集训 练 的 次 数 ): 


In [8]: lda lfq = models.LdaModel(corpus, num topics-num topics, id2word-dict lfq,passes-10, iterations-50,alpha-0.01,eta-0.01) 
for t in range(num topics): 
print 'topic ',t,' words: ',lda lfq.print topic(t,topn-10) 
print 


上 述 代 码 返回 与 每 个 主题 最 相关 的 10 个 单词 : 


topic 0 words: 0.009*best + 0.008*1ife + 0.008*although + 0.008*great + 0.007*director + 0.006*own + 0.006*see + 
0.006*town + 0.006*doesn + 0.005*still 












































| 






































topic 1 words: 0.014*see + 0.010*know + 0.008*bad + 0.008*off + 0.008*think + 0.007*plot + 0.007*could + 
0.007*re + 0.007*life + 0.007*m 


topic 2 words: 0.0ll*disney + 0.009*off + 0.009*action + 0.009*plot + 0.008*love + 0.008*1ife + 0.007*wild + 
0.007*could + 0.006*mulan + 0.006*new 


topic 3 words: 0.009*scene + 0.008*1ife + 0.007*new + 0.007*know + 0.007*doesn + 0.007*off + 0.007*could + 
0.006*bad + 0.006*director + 0.006*see 


topic 4 words: 0.0l4*truman + 0.009*1ife + 0.009*best + 0.008*doesn + 0.007*scene + 0.007*own + 0.007*world + 
0.007*sandler + 0.007*see + 0.006*new 


topic 5 words: 0.009*bad + 0.008*big + 0.008*off + 0.007*plot + 0.007*doesn + 0.007*director + 0.007*scene + 
0.007*go + 0.006*see + 0.006*better 


topic 6 words: 0.013*plot + 0.012*action + 0.012*alien + 0.011*bad + 0.009*new + 0.008*off + 0.008*planet + 
0.008*see + 0.007*could + 0.006*scene 


topic 7 words: 0.013*action + 0.009*plot + 0.007*war + 0.007*off + 0.007*see + 0.007*re + 0.007*van + 
0.006*director * 0.006*great * 0.006*made 


topic 8 words: 0.012*1ove + 0.009*best + 0.008*see + 0.007*could + 0.007*1ife + 0.006*new + 0.006*scene + 
0.006*off * 0.006*go * 0.006*re 


topic 9 words: 0.016*life + 0.010*world + 0.007*scene + 0.007*could + 0.006*mother + 0.006*own + 0.006*10ove + 
0.006*role + 0.006*off + 0.006*father 


虽然 , HERI] PRA e Be LB IHRE. 10 个 主题 , 但 我 们 显然 可 以 看 到 主题 2 的 几 
个 单词 disney, mulan (Disney 拍 的 一 部 电影 )、love 和 life 表明 主题 2 跟 动画 影片 相关 ， 
而 主题 6 的 action, alien, bad 和 planet 单词 与 科幻 电影 相关 。 实 际 上 ， 我 们 可 以 查询 所 有 
电影 中 最 可 能 属于 主题 6 的 : 


In [9]: #topics for each doc 
def GenerateDistrArrays(corpus): 
for i,dist in enumerate(corpus[:10]): 
dist array - np.zeros(num topics) 
for d in dist: 
dist array|d[0]] -d[1] 
if dist array.argmax() == 6 : 
print tot titles[i] 
corpus lda = lda lfq[corpus] 
GenerateDistrArrays(corpus lda) 
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返回 结果 如 下 : 


Rock Star (2001) 
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Star Wars: Episode I - The Phantom Menace (1999) 


Zoolander (2001) 


Star Wars: Episode I - The Phantom Menace (1999) 


Matrix, The (1999) 
Volcano (1997) 

Return of the Jedi (1983) 
Daylight (1996) 

Blues Brothers 2000 (1998) 
Alieng#179; (1992) 

Fallen (1998) 

Planet of the Apes (2001) 




















大 多 数 电影 显然 是 科幻 和 幻想 片 ， 因 此 LDA 算法 将 它们 聚 到 一 起 是 正确 的 。 






































请 注意 主题 空间 (lda_ lfq[corpus]) 4 











有 的 文档 表示 (document representation)， 我 们 还 可 




















以 用 聚 类 算法 《〈 详 见 第 2 章 ) 处 理 ， 我 人 














将 其 留 给 读者 练 手 ， 这 里 不 再 费 述 。 此 外 ， 还 要 








注意 ， 由 于 模型 的 初始 化 是 随机 的 ， 每 次 运行 LDA 算法 ， 其 结果 也 许 不 同 〈 如 果 你 得 到 的 








结果 跟 书 中 不 同 ， 也 很 正常 )。 
4.4.2 观点 挖掘 〈 情感 分 析 ) 

















观点 挖掘 或 情感 分 析 这 一 领域 研究 如 何 抽取 当事人 的 观点 ， 这 些 观点 通常 分 为 积极 或 





消极 《或 中 性 ) 的 。 这 类 分 析 非 常 实用 ， 











在 营销 领域 尤其 如 此 ， 我 们 可 据 此 找 出 公众 对 产 




















品 或 服务 的 观点 。 观 点 挖掘 的 标准 方法 是 将 情感 (或 极 性 )、 积 极 或 消极 作为 分 类 问题 的 目 











标 类 别 。 文 档 集 的 特征 数 为 词汇 表 所 有 不 同 单词 的 数量 。 分 类 器 通常 用 SVM 和 朴素 贝 叶 
































斯 。 举 个 例子 ， 我 们 可 以 用 上 面 测试 LDA 算法 和 信息 检索 模型 所 用 的 2000 篇 影评 作为 数 

















据 集 ， 该 数据 集 已 标注 了 类 别 〈 积 极 或 消极 )。 本 节 的 所 有 代码 在 postprocessing.ipynb 文件 
J 从 https://github.com/ai2010/machine learning for the web/tree/master/chapter 4/ 下 载 。 








z| 


中 ， 
我 们 像 之 前 那样 导入 并 预 处 理 数据 ; 





























In [10]: import nltk 
from nltk.corpus import stopwords 


tknzr * WordPunctTokenizer() 

from nltk.tokenize import RegexpTokenizer 
nltk.download('stopwords') 

stoplist = stopwords.words( 'english') 


from nltk.stem.porter import PorterStemmer 
stemmer = PorterStemmer() 





from collections import namedtuple 


from nltk.tokenize import WordPunctTokenizer 


tknzr = RegexpTokenizer(r'((?<=[“^\w\s])\w(?=[“\w\s])|(\W))+', gaps=True) 
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然后 ， 将 数据 集 切 分 为 训练 集 (80%) 和 测试 集 (20%)， 将 其 处 理 成 nltk 库 可 以 处 理 
的 形式 〈 元 素 为 元 组 的 列表 或 是 以 文档 中 的 单词 为 铺 








def PreprocessReviews(text,stop-[],stem-False): 
#print profile 
words = tknzr.tokenize(text) 


if stem: 

words clean = [stemmer.stem(w) for w in [i.lower() for i in words if i not in stop]] 
else: 

words clean = [i.lower() for i in words if i not in stop] 


return words clean 


Review - namedtuple('Review','words title tags') 

dir = './review polarity/txt sentoken/" 

do2vecstem - True 

reviews pos = [] 

cnt = 0 

for filename in [f for f in os.listdir(dir+'pos/') if str(f)[0]!="'."]: 
f = open(dir*'pos/'«filename,'r') 
id = filename.split('.')[0].split(' ')(1] 


cnteel 


reviews neg = [] 

ente 0 

for filename in [f for f in os.listdir(dir*'neg/') if str(f)[0]!-'.']: 
f = open(dir*'neg/'*filename,'r') 
id = filename.split('.')[0].split(' ')[1] 


enteel 





tot reviews * reviews pos * reviews neg 


reviews pos.append(Review(PreprocessReviews(f.read(),stoplist,do2vecstem),moviedict[id],['pos '*str(cnt)])) 


reviews neg.append(Review(PreprocessReviews(f.read(),stoplist,do2vecstem),moviedict[id],['neg '*str(cnt)])) 


























E, 以 文档 对 应 的 标签 为 值 的 字典 ): 








In [11]: #split in test training sets 
def word features(words): 
return dict([(word, True) for word in words]) 


negfeatures - [(word features(r.words), 'neg') for r in reviews neg] 
posfeatures - [(word features(r.words), 'pos') for r in reviews pos] 


portionpos - int(len(posfeatures)*0.8) 

portionneg = int(len(negfeatures)*0.8) 

print portionpos,'-',portionneg 

trainfeatures - negfeatures[:portionneg] * posfeatures[:portionpos] 
print len(trainfeatures) 

testfeatures = negfeatures[portionneg:] + posfeatures[portionpos:] 
Xshuffle(testfeatures) 




















现在 ， 我 们 可 以 用 nltk 库 的 NaiveBayesClassifier 分 类 器 〈 多 项 式 
和 测试 分 类 器 ， 并 检验 错误 率 ; 





朴素 贝 叶 斯 )， 训 练 








In [12]: from nltk.classify import NaiveBayesClassifier 

ftraining naive bayes 
classifier - NaiveBayesClassifier.train(trainfeatures) 
fZfftesting 
err = 0 
print 'test on: ',len(testfeatures) 
for r in testfeatures: 

sent - classifier.classify(r[0]) 

if sent !- r[1]: 

err +=1. 

print 'error rate: ',err/float(len(testfeatures)) 








上 述 代 码 得 到 28.25% 的 错误 率 ， 但 是 用 每 篇 文档 的 最 佳 二 元 组 ， 可 以 改进 结果 。 二 元 
组 指 一 组 连续 出 现 的 单词 , 我 们 用 卡 方 检验 ?寻找 不 是 偶然 而 是 频繁 共 现 的 二 元 组 。 这 些 


特殊 的 二 元 组 包含 文档 的 相关 信息 ， 用 自然 语言 处 到 
































的 术语 来 讲 ， 它 们 叫 作 搭配 

















(collocation )。 例 如 ， 给 定 由 两 个 词 wl 和 w2 组 成 的 二 元 组 ， 语 料 库 中 共有 N 个 可 能 的 二 
元 组 。 我 们 给 出 零 假 设 w1 和 w2 是 否 出 现 彼此 不 相干 。 我 们 可 以 将 二 元 组 的 出 现 次 数 Cw, 


w2) 和 



































其 余 可 能 的 二 元 组 的 出 现 次 数 用 和 矩阵 O 来 表示 ， 见 表 4.1: 
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x 4.1 














wl dE w1 
w2 10 901 
dE w2 345 1111111 
































那么 , X 的 计算 方法 为 到 = 之 之 ，0; 表 示 由 单词 (站 组 成 的 二 元 组 的 出 现 次 数 























(因此 Ow=10)，B; 为 二 元 组 Gp BEYA Cl. E, (i Cuty, 


N N 
赁 直觉 不 难看 出 ,观察 到 的 频数 Oy 与 期 望 平均 数 差别 越 大 , 系 值 越 高 ,因此 可 以 拒绝 零 假 
设 。 能 够 成 为 搭配 的 二 元 组 比 起 按照 期 望 的 平均 数 出 现 的 二 元 组 ， 包 含 更 多 信息 。 了 邓 值 可 
用 ftest〈 也 叫 作 均 方 列 联系 数 ") 乘 以 二 元 组 总 数 NN 得到， 如 下 所 示 : 

OO -OO， 
V(O + Ou) (0% +O%) (0% + 0)(O% +0,) 











= No, Q zx 











KFARA X ^ 检验 的 更 多 内 容 ， 请 参考 C. D. Manning 和 H. Schuetze (1999) 合 著 的 
Foundations of Statistical Natural Language Processing (统计 自然 语言 处 理 基 础 》)。 顺 便 提 
一 下 ， 作 为 信息 增益 的 一 种 度量 方法 ,我 们 可 将 卫 看 作 是 一 种 我 们 在 第 3 章 定义 的 特征 选 
择 方法 。 我 们 借助 nitk 库 ， 用 不 方法 选择 每 篇 文档 的 500 个 最 佳 二 元 组 特征 ， 再 次 训练 朴 
素 贝 叶 斯 分 类 器 ， 代 码 如 下 ; 


In [16]: import itertools 
from nltk.collocations import BigramCollocationFinder 
from nltk.metrics import BigramassocMeasures 
from random import shuffle 


















































$train bigram: 

def bigrams words features(words, nbigrams-200,measure-BigramAssocMeasures.chi sq): 
bigram finder - BigramCollocationFinder.from words(words) 
bigrams = bigram finder.nbest(measure, nbigrams) 
return dict([(ngram, True) for ngram in itertools.chain(words, bigrams)]) 


negfeatures = [(bigrams words features(r.words,500), 'neg') for r in reviews neg] 
posfeatures = [(bigrams words features(r.words,500), 'pos') for r in reviews pos] 
portionpos = int(len(posfeatures)*0.8) 
portionneg = int(len(negfeatures)*0.8) 
print portionpos,'-',portionneg 
trainfeatures = negfeatures[:portionpos] + posfeatures[:portionneg] 
print len(trainfeatures) 
classifier = NaiveBayesClassifier.train(trainfeatures) 
##test bigram 
testfeatures = negfeatures[portionneg:] + posfeatures[portionpos:] 
shuffle(testfeatures) 
err = 0 
print 'test on: ',len(testfeatures) 
for r in testfeatures: 
sent = classifier. clasaifvirDOT) 














"print r[1],'-pred: ',sent 
if sent != r[1]: 
err *-1. 
print 'error rate: ',err/float(len(testfeatures)) 
®© 英文 为 “mean square contingency coefficient”。 一 一 译 者 注 
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这 一 次 错误 率 降 到 20%， 低 于 常规 方法 的 错误 率 。 妈 检验 还 可 | 


> E E Ed 


言 息 量 最 大 的 单词 。 我 们 可 以 度量 单个 单词 的 词 频 与 它 在 积极 (或 消极 ) 文档 中 词 频 之 间 
的 差距 ， 为 单词 的 重要 性 打分 例如 ， 如 果 单 词 great 在 积极 评论 中 的 X" 值 高 于 它 在 消极 



























































] 来 从 全 部 语 料 中 于 














In [21]: 





import nltk.classify.util, nltk.metrics 

tot poswords = [val for l in [r.words for r in reviews pos] for val in 1] 
tot negwords = [val for l in [r.words for r in reviews neg] for val in 1] 
from nltk.probability import FregDist, ConditionalFreqDist 

word fd = FregDist() 

label word fd = ConditionalFreqDist() 


for word in tot poswords: 
word fd[word.lower()] +=1 
label word fd[ pos'][word.lower()] +=1 


for word in tot negwords: 

word fd[word.lower()] +=1 

label word fd| neg'j][word.lower()] +=1 
pos words - len(tot poswords) 
neg words = len(tot negwords) 


tot words = pos words + neg words 
select the best words in terms of information contained in the two classes pos and neg 
word scores - () 


for word, freg in word fd.iteritems(): 
pos score - BigramAssocMeasures.chi sq(label word fd['pos'][word], 
(freq, pos words), tot words) 
neg score * BigramAssocMeasures.chi sq(label word fd['neg'][word], 
(freq, neg words), tot words) 
word scores[word] = pos score + neg score 
print 'total: ',len(word scores) 
best = sorted(word scores.iteritems(), key-lambda (w,s): s, reverse-True)[:10000] 
bestwords - set([w for w, s in best]) 








现在 , 我 们 只 用 每 篇 文章 中 最 具 区 分 性 的 单词 


斯 分 类 器 : 
































In [22]: 





ftraining naive bayes with chi square feature selection of best words 
def best words features(words): 
return dict([(word, True) for word in words if word in bestwords]) 


negfeatures - [(best words features(r.words), 'neg') for r in reviews neg] 
posfeatures - [(best words features(r.words), 'pos') for r in reviews pos] 
portionpos - int(len(posfeatures)*0.8) 
portionneg - int(len(negfeatures)*0.8) 
print portionpos,'-',portionneg 
trainfeatures - negfeatures[:portionpos] * posfeatures[:portionneg] 
print len(trainfeatures) 
classifier - NaiveBayesClassifier.train(trainfeatures) 
##test with feature chi square selection 
testfeatures - negfeatures[portionneg:] * posfeatures[portionpos:] 
shuffle(testfeatures) 
err 0 
print 'test on: ',len(testfeatures) 
for r in testfeatures: 

sent = classifier.classify(r[0]) 

fprint r[1],'-pred: ',sent 

if sent != r[1]: 

err +=1。 

print 'error rate: ',err/float(len(testfeatures)) 








取 


评论 的 P 值 ， 这 表明 该 词 能 够 给 出 评论 是 积极 的 这 一 信息 )。 我 们 分 别 计算 每 个 单词 在 全 


部 语 料 、 积 极 语 料 和 消极 语 料 的 词 频 ， 抽 取 全 部 语 料 中 1 万 个 最 重要 的 单词 ， 代 码 如 下 : 


bestwords 里 面 的 单词 训练 朴素 贝 叶 


背 误 率 为 12.75%， 鉴 于 我 们 数据 集 相 对 较 小 ， 这 个 错误 率 可 以 说 是 相当 低 了 。 如 要 保 
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证 结果 更 加 可 靠 ,应 使 用 交叉 检验 方法 ( 见 第 3 章 ), 请 读者 自行 练习 ,我 们 还 可 以 用 Doc2Vec 
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向 量 (4.3 节 “7. 影 评 查 询 示例 ”中 计算 过 ) 训练 分 类 器 。 假定， 我 们 已 得 到 Doc2Vec 向 量 ， 
并 完成 训练 ,将 其 存储 到 model d2v.docvecs 对 象 之 中 ,我们 按照 先前 做 法 将 数据 集 切 分 为 








训练 集 (80%) 和 测试 集 (209%6 ): 








In [23]: #split train,test sets 
trainingsize = 2*int(len(reviews pos)*0.8) 


train d2v - np.zeros((trainingsize, vec size)) 
train labels - np.zeros(trainingsize) 

test size - len(tot reviews)-trainingsize 
test d2v = np.zeros((test size, vec size)) 
test labels - np.zeros(test size) 


cnt train = 0 
cnt test = 0 
for r in reviews pos: 
name pos - r.tags[0] 
if int(name pos.split(' ')[1])>= int(trainingsize/2.): 
test d2v[cnt test] = model d2v.docvecs[name pos] 
test labels[cnt test] = 1 
cnt test +=1 
else: 
train d2v[cnt train] = model d2v.docvecs[name pos] 
train labels[cnt train] = 1 
cnt train *-1 


for r in reviews neg: 

name neg = r.tags[0] 

if int(name neg.split(' ')[1])?- int(trainingsize/2.): 
test d2v[cnt test] - model d2v.docvecs[name neg] 
test labels[cnt test] - 0 
cnt test 4-1 

else: 
train d2v[cnt train] = model d2v.docvecs[name neg] 
train labels[cnt train] - 0 
cnt train +=1 











然后 ， 训 练 SVM 分 类 器 〈 径 向 基 内 核 RBF) 或 对 数 几率 回归 模型 : 








In [27]: #train log regre 
from sklearn.linear model import LogisticRegression 
classifier - LogisticRegression() 
classifier.fit(train d2v, train labels) 
print 'accuracy:',classifier.score(test d2v,test labels) 


from sklearn.svm import SVC 

clf - SVC() 

clf.fit(train d2v, train labels) 

print 'accuracy:',clf.score(test d2v,test labels) 

















逻辑 回归 和 SVM 正确 率 非常 低 ， 分 别 为 0.5172 和 0.5225， 主 要 原因 在 于 数据 集 非常 














小 ， 无 法 训练 包含 多 个 参数 的 算法 ， 比 如 神经 网 络 。 


4.5 小 结 























本 章 讨 论 了 Web 数据 挖掘 最 常用 和 最 先进 的 算法 ， 
zh 








介绍 了 如 何 用 多 种 Python 库 来 实 





4 
现 它们 。 学 完 本 章 ， 你 应 该 已 经 清楚 地 理解 Web 数据 挖掘 领域 的 难点 ， 有 具备 月 
处 理 其 中 一 些 较为 环 手 的 问题 的 能 力 。 下 一 章 ， 我 们 将 讨论 当前 商业 领域 所 使 用 的 、 最 为 

















重要 的 推荐 系统 算法 。 
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H Python 语言 





























只 要 是 可 选 的 产品 或 服务 较 多 ， 





J EZES 
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理 的 时 间 范 围 内 评价 它们 的 好 坏 ， 自 然 就 有 























使 用 推荐 系统 的 必要 
找 出 用 户 有 意 购 买 的 商品 ， 因 此 它 是 
Amazon. Netflix, eBay 和 Google Play 商店 ， 这 些 产 
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H 











nf 
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。 推 荐 引擎 可 以 帮助 线 上 的 卖家 ， 从 大 量 与 终端 有 














户 不 相关 的 备 选 商品 中 ， 











尼子 商务 平台 的 重要 部 件 。 



































他 们 也 许 想 购买 的 商品 。 过 去 20 年 ， 人 们 发 明了 多 
最 重要 的 推荐 技术 ， 


















































规则 、 对 数 似 然 和 混合 推荐 ) 及 如 何 
数据 集 (http://grouplens.org/datasets/movielens/), EE} 























"推荐 技术 ,我 们 重 





j 多 种 不 同方 法 评估 

















数 从 1 到 5 共 5 等 )， 总 数量 有 10 万 条 。 
个 类 型 。 本 章 代 码 依旧 
learning for the web/tree/master/chapter 5， 代 码 文件 

讨论 推荐 算法 2 


立 推 荐 系统 。 


SK FREE 











H 
























































9. 1 





前 ， 我 们 先 介绍 主要 的 矩阵 和 常 月 


推荐 方法 的 正确 3 
舌 943 名 用 户 对 1682 部 


H4 


E 荐 系统 的 } 
收集 到 的 历史 数据 ， 向 每 位 用 户 推 荐 
介绍 如 今 为 业界 采用 、 
并 指出 每 种 方法 的 优 缺 点 。 这 些 推荐 系统 分 为 基于 内 容 的 过 滤 (Content-based 
Filtering, CBF) 和 协同 过 滤 〈Collaborative Filtering，CF)。 我 们 还 会 讨论 其 他 推荐 方法 (关联 


























型 应 用 见于 


















































率 。 我 们 

















i MovieLens 




















电影 的 评分 数据 (分 




















每 名 用 户 至 少 给 20 部 
JA GitHub 下 载 ， 文 件 夹 地 址 https://github.com/ai2010/machine - 





的 度量 标准 ， 以 便 











电影 打 过 分 





为 rec_ sys methods.ipynb. 


， 每 部 











昌 影 从 属于 多 






































推荐 系统 用 到 两 类 数据 : 
将 用 户 i 和 商品 j 联系 


用 户 和 商品 。 
忆 来 ， 表 示 用 户 喜 欢 商 品 的 程度 。 





























每 名 用 户 喜 欢 特 定 的 几 种 商品 。 


把 这 ! 


些 数据 收集 起 来 ， 




















这 样 的 矩阵 叫 作 效 

















和 矩阵 Cutility matrix) Ro XBPERIRE—47 i, 


NEZM 


准备 数据 集 、 建 








Arn; (1 到 5) 
用 和 矩阵 来 表示 ， 
































衣 不 








和 矩阵 的 每 一 列 j 表示 所 有 为 商品 j 打 过 分 的 所 有 用 户 。 





下 面 例 














的 udata 文件 (和 uitem 文件 ， 它 存储 电影 名 称 ), 将 


BA 
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1P i J 
子 ， 我 们 找到 ml-100k 文件 夹 中 
来 , 转换 为 pandas 的 DataFrame 





bh 些 商品 打 过 分 ， 


5.1 ”效用 矩阵 




















对 象 ( 处 理 后 将 得 到 的 效用 矩阵 保存 为 csv 格式 ， 即 utilitymatrix.csv 文件 )， 代 码 如 下 : 











In [34]: 


In [35]: 


import numpy as np 
import pandas as pd 

import copy 

import collections 

from scipy import linalg 

import math 

from collections import defaultdict 


#data 

df = pd.read csv('./data/ml-100k/u.data' ,sep='\t',header=None) 

#movie list 

df info = pd.read csv('./data/ml-100k/u.item',sep='|",header=None) 

movielist = [df info[1].tolist()[indx]*';'*str(indx*1) for indx in xrange(len(df info[1].tolist()))] 
nmovies * len(movielist) 

nusers = len(df[0].drop duplicates().tolist()) 


min ratings - 50 

movies rated = list(df[1]) 

counts * collections.Counter(movies rated) 
dfout = pd.DataFrame(columns-['user']*movielist) 


toremovelist - [] 
for i in range(1,nusers): 
tmpmovielist = [0 for j in range(nmovies)] 
dftmp -df[df[0]--i] 
for k in dftmp.index: 
if counts[dftmp.ix[k][1]]»-7 min ratings: 
tmpmovielist[dftmp.ix[k][1]-1] * dftmp.ix[k][2] 


else: 
toremovelist.append(dftmp.ix[k][1]) 


dfout.loc[i] = [i]*tmpmovielist 
toremovelist = list(set(toremovelist)) 


dfout.drop(dfout.columns[toremovelist], axis-1, inplace-True) 
dfout.to csv('data/utilitymatrix.csv',index-None) 





前 两 行 代码 输出 如 下 : 








In [38]: 


Out[38]: 


df = pd.read csv('data/utilitymatrix.csv') 





























df.head(2) 
Dead 
Toy Gol dente Four Get Twelve Babe |Man Richard Cool iet 
e ERE Rm m car ertet a Re, rn 
o1 |s |s 4 B [s 4 1 |s |s ..|o 0 | 
1 |4 lo lo lo [o 0 0 lo l2 |o 0 | 








2 rows x 604 columns 





除去 第 1 列 
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( 列 命 为 user， 表 示 用 户 的 ID )， 每 一 列 的 列 名 包括 两 部 分 : 电影 的 名 称 
























































和 它 在 MovieLens 数据 库 中 的 ID, 这 两 部 分 用 英文 分 号 隔 开 。 矩阵 中 , 元 素 0 表示 缺失 值 ， 
因为 用 户 打 过 分 的 电影 远 少 于 1600 部 ， 所 以 很 多 元 素 都 是 0。 请 注意 ， 因 为 少 于 50 个 评 
分 的 电影 已 从 效用 和 矩阵 删除 ， 所 以 总 列 数 为 604 (多 于 50 个 评分 的 电影 只 有 603 ID. 


Y 

















荐 系统 的 目标 是 预测 这 些 缺 失 的 元 素 ， 但 为 了 使 用 某 些 预测 技术 ， 我 们 需要 为 缺失 元 素 赋 


初始 值 〈 插 值 ，imputation ) 。 

















的 平均 分 ， 这 两 种 方法 见 下 面 这 个 函数 : 








In [4]: 


def imputation(inp,Ri): 
Ri = Ri.astype(float) 
def userav(): 
for i in xrange(len(Ri)): 
Ri[i][Ri[i]--0] = sum(Ri[i])/float(len(Ri[i][Ri[i]»0])) 
return Ri 
def itemav(): 
for i in xrange(len(Ri[0])): 
Ri[:,i][Ri[:,i]--0] = sum(Ri[:,i])/float(len(Ri[:,i][Ri[:,i]»0])) 
return Ri 
switch = ('useraverage':userav(), ' itemaverage':itemav()) 
return switch[inp] 
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常见 的 插值 方法 有 两 种 ， 每 位 用 户 给 出 的 平均 分 或 每 件 商品 
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本 章 实 现 的 多 个 算法 都 会 调用 该 函数 ， 因 此 为 了 后 续 使 用 方便 ， 我 们 这 里 先行 讨论 了 
该 函数 。 此 外 ， 本 章 的 效用 和 矩阵 为 NxM E, 表示 N 个 用 户 、M 个 商品 。 由 于 不 同 算法 














重复 用 相似 度 度量 方法 ， 我 们 接 下 来 给 出 几 个 最 通用 的 定义 。 


52 ”相似 度 度量 方法 














向 量 x 和 y 可 以 是 用 户 ( 效 用 矩阵 的 行 ) 或 商品 (效用 矩阵 的 列 )， 











似 度 度量 方法 有 以 下 两 种 : 





[Dxy, 
i © 
208 


2,05 99017) 


。 余弦 相似 度 : s(x, y)= 





。 皮尔 逊 相关 系数 : s(x,y) = ; x 入 分 别 为 两 个 向 量 的 均值 。 








> (x, - xy! 12 (y, - 9». 



































它们 之 间 常 用 的 相 























这 两 种 度量 方法 ， 若 均值 为 0， 结 果 碰 巧 相同 。 有 了 这 些 知识 ， 我 们 可 以 开始 讨论 不 





同 的 推荐 算法 ， 先 讲 协同 过 滤 。 先 说 一 下 ， 需 要 计算 两 个 向 量 之 间 的 相似 度 时 ， 用 下 面 这 






































个 
N sim) K Zr: 
In [8]: from scipy.stats import pearsonr 
from scipy.spatial.distance import cosine 
def sim(x,y,met: eec 


— os 
return r 
relation 


r. 
return pearsonr(x,y)[0] 























我 们 用 SciPy 库 实 现 的 函数 计算 这 两 种 相似 度 〈 但 要 注意 ，scipy 
我 们 上 面 讲 的 刚好 相反 ， 因 此 需要 再 用 1 减 去 cosine 函数 的 返回 值 )。 


5.3 协同 过 滤 方 法 





















































这 类 推荐 方法 背后 的 思想 是 ， 用 户 喜 欢 相 似 用 户 喜欢 的 商品 。 简 
基本 假设 是 ， 与 用 户 B 相似 的 用 户 4， 给 商品 打 的 分 数 很 可 能 与 B JH 
们 可 用 两 种 方式 实现 这 一 概念 : 比较 不 同 用 户 的 品位 ， 根 据 最 相似 用 






































(D 原 书 此 处 公式 有 误 ， 分 子 去 掉 根 号 。 一 一 译 者 注 
© 
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Æ “where x and y are the averages of the two vectors” 中 的 “x” 和 “y” 实 则 为 x 和 y 。 一 一 译 者 注 


余弦 相似 度 的 定义 与 


单 来 讲 ， 我 们 所 做 的 
同 。 实 际 操作 中 ,我 
户 的 品位 ， 预 测 某 用 









































ERRIN 


53 ”协同 过 滤 方 法 “121 


人 抽取 打分 模式 ， 根 据 这 些 模式 预测 打分 〈 基 于 
模型 )。 这 两 种 方法 都 需 量 数据 ， DAD EN LE 取决 于 数据 中 有 和 多少 
相似 用 户 。 NE ee 个 问题 已 有 比较 充分 地 研究 ， 相 关 文 献 通常 
ee di CF 和 CBF. MovieLens i iua: 我 们 假定 数据 充足 ， 不 存在 冷 启动 
问题 。CF 算法 的 其 他 常见 问题 还 有 : 
D 可 扩展 性 ， 因 为 随 着 用 户 和 产品 数量 的 增加 ， 计 算 量 也 会 增加 (也 许 有 必要 采用 并 
行 计算 技术 ); 
2) 稀 疏 的 效用 矩阵， 因为 通常 用 户 只 为 少数 商品 打分 (一 般 尝 试用 插值 解决 这 个 
问题 ) 
5.3.1 基于 记忆 的 协同 过 滤 


这 一 类 协同 过 滤 方 法 ， 利 用 效用 矩阵， 计算 用 户 或 商品 之 间 的 相似 度 。 虽 然 这 些 方 法 
存在 可 扩展 性 和 冷 启动 问题 ， 但 是 若 效 用 抢 阵 较 大 或 非常 小 时 ， 现 在 很 多 商用 系统 选用 的 
却 正 是 该 类 方法 。 我 们 接 下 来 讨论 基于 用 户 的 协同 过 滤 和 基于 商品 的 协同 过 滤 。 

1. 基于 用 户 的 协同 过 滤 
该 算法 用 k-NN 方法 〈 见 第 3 章 ) 找 出 与 给 定 用 户 打分 记录 相似 的 用 户 ， 对 他 们 的 打 
分 取 加 权 平 均值 ， 补 上 当前 用 户 的 缺失 值 。 
算法 描述 如 下 : 

对 于 任意 给 定 用 户 i 及 其 没有 标记 过 的 商品 j: 
a) 用 相似 度 度量 方法 s， 找 出 K 个 为 商品 j 打 过 分 的 最 相似 用 户 。 


(2) 对 于 用 户 i 没有 打分 的 每 种 商品 j， 取 天 个 用 户 打 分 的 加 权 平 均值 作为 用 户 i 为 j 
打 的 分 数 : 





























































































































































































































































































































































































































天 
Yos. 25) 


k=0 








sao 


k=0 

志和 元 分 别 为 用 户 i 和 处 打 的 平均 分 ,增加 这 两 项 是 为 了 前 弱 主 观 性 的 影响 (有 的 用 
户 打分 很 慷慨 ， 有 的 则 很 挑剔 )，s(i, 有 表示 相似 度 ， 前 面 已 讲 过 。 我 们 甚至 还 可 以 利用 用 户 
打分 的 分 散 程度 规范 化 预测 分 数 ， 使 分 数 更 具 可 比 性 : 
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K 
9,» s, ky, -A)/ oo 
k-0 


uuo 








ZF 4 
Py =n? 




















c, fl o, 4:9 Z3 FH i F k BHET HRS EE o 


VASE LEES KENBO 有 的 取 值 通常 为 20 一 50， 大 多 数 应 用 使 用 该 范围 的 取 值 
的 实验 结果 表明 ， 用 皮尔 逊 相关 系数 得 到 的 结果 要 好 于 余弦 相似 度 ， 这 很 可 能 
是 因为 计算 皮尔 逊 相关 系数 时 ， 减 去 用 户 打 的 平均 分 ， 相 关 忻 
面 代码 给 出 每 个 用 户 的 缺失 值 的 预测 值 。 


即 可 。 以 往 


































































































公式 让 用 户 更 具 可 比 性 。 下 


其 中 ，u_vec 表示 用 户 打 的 分 数 ， 函 数 FindKNeighbours.CalcRating 用 前 面 刚 讲 过 的 公 


I, M u vec 找到 天 名 相似 |) 
效用 抢 阵 过 于 稀疏 ， 找 不 到 近邻 ， 将 月 
































大 于 5 或 小 于 1， 分 别 将 其 设置 为 $ 或 1。 

















j 户 的 分 数 ， 计 算 预 测 分 数 〈 没 有 调整 预测 分 数 的 分 布 )。 如 果 
昌 户 自己 打分 的 平均 分 作为 预测 结 


REl MMEA 








In [51]: def CF userbased(u vec,K,data,indxs-False): 


def FindKNeighbours(r,data,K): 
neighs - [] 
cnt=0 
for u in xrange(len(data)): 
if data|u,r]»0 and cnt<K: 
neighs.append(data[u]) 
cnt +=1 
elif cnte-K: 
break 
return np.array(neighs) 


def CalcRating(u vec,r,neighs): 
rating = 0. 
den = 0. 
for j in xrange(len(neighs)): 
rating += neighs[j][-1]*float(neighs[j][r]-neighs[j][neighs[j]»0][:-1].mean()) 
den += abs(neighs[j][-1]) 
if den»0: 
rating = np.round(u vec[u vec»0].mean()*(rating/den),0) 
else: 
rating = np.round(u vec[u vec»0].mean(),0) 
if rating»5: 
return 5. 
elif ratingcl: 
return 1. 
return rating 
fadd similarity col 
data = data.astype(float) 
nrows = len(data) 
ncols = len(data[0]) 
data sim = np.zeros((nrows,ncols*1)) 
data sim[:,:-1] = data 
#calc similarities: 
for u in xrange(nrows): 


if np.array equal(data sim[u,:-1],u vec)--False: #1list(data sim[u,:-1]) != list(u vec): 


data sim[u,ncols] = sim(data sim[u,:-1],u vec,'pearson') 
else: 
data sim[u,ncols] = 0. 
#order by similarity: 
data sim -data sim[data sim[:,ncols].argsort()][::-1] 
find the K users for each item not rated: 
u rec = np.zeros(len(u vec)) 
for r in xrange(ncols): 
if u vec[r]**0: 
neighs = FindKNeighbours(r,data sim,K) 
fcalc the predicted rating 
nu rec[r] = CalcRating(u vec,r,neighs) 


if indxs: 
#take out the rated movies 
seenindxs = [indx for indx in xrange(len(u vec)) if u vec[indx]»0] 


u rec[seenindxs] = -1 
recsvec = np.argsort(u rec)[::-1][np.argsort(u rec)»0] 


return recsvec 
return u rec 
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2. 基于 商品 的 协同 过 滤 
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该 方法 的 基本 思想 与 基于 用 户 的 协同 过 滤 相 同 ， 只 不 过 它 计算 的 是 商品 而 不 是 用 户 的 


相似 度 。 在 大 多 数 情 况 下 ， 用 户 的 数量 比 商 品 的 数量 要 多 得 多 ， 而 商品 的 相似 度 可 以 提前 





计算 ， 即 使 新 用 户 〈 如 果 用 户 数 量 ON 非常 大 ) 加 进来 ， 商 品 之 前 的 相 



































化 ， 因 此 可 以 用 该 方法 实现 扩展 性 更 强 的 推荐 系统 。 








对 于 每 个 用 户 


(1) 用 一 种 相似 度 度量 方法 s， 找 出 与 




















i 和 每 件 商品 j， 算 法 描述 如 下 : 




















(2) 计算 天 件 商品 分 数 的 加 权 平 均值 ， 将 其 作为 预测 值 : 


计算 相似 度 时 ， 可 能 得 到 负 值 ， 因 此 为 了 让 p; 
于 0 的 相似 度 加 总 《如 果 我 们 只 想 找 出 最 佳 推荐 商品 ， 而 不 是 计算 准确 的 分 数 ， 则 无 须 
基于 商品 的 协同 过 滤 ,， K 取 20 一 50 的 值 ， 通 常 也 能 满足 大 多 数 应 用 





考虑 商品 的 顺序 )。 


的 需要 。 














K 
Y skry 

_ 如 
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X sk) 


k=0 


Pij 



































我 们 用 一 个 类 实现 该 算法 : 











j 户 i 打 过 分 的 商品 最 相似 的 天 人 














以 度 也 不 会 有 较 大 变 



































意义 〈 也 就 是 正 值 )， 我 们 只 将 大 




















def 





In [32]: class CF itembased(object): 


. init (self,data): 
fcalc item similarities matrix 
nitems - len(data[0]) 
self.data = data 
self.simmatrix = np.zeros((nitems,nitems)) 
for i in xrange(nitems): 
for j in xrange(nitems): 
if j»-i:striangular matrix 
self.simmatrix[i,j] = sim(data[:,i],data[:,j]) 
else: 
self.simmatrix[i,j] = self.simmatrix[j,i] 


GetKSimItemsperUser(self,r,K,u vec): 
items - np.argsort(self.simmatrix[r])[::-1] 
items = items[items!-r] 
Cnt=0 
neighitems = [] 
for i in items: 
if u vec[i]»0 and cnt<K: 
neighitems.append(i) 
cnt+=1 
elif cnt--K: 
break 
return neighitems 


CalcRating(self,r,u_vec,neighitems): 
rating = 0. 
den = 0. 
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for i in neighitems: 
rating += self.simmatrix[r,i]*u vec[i] 
den += abs(self.simmatrix[r,i]) 
if den»0: 
rating * np.round(rating/den,0) 
else: 
rating = np.round(self.data[:,r][self.data[:,r]»0].mean(),0) 
return rating 


def CalcRatings(self,u vec,K,indxs-False): 
fu rec = copy.copy(u vec) 
u rec - np.zeros(len(u vec)) 
for r in xrange(len(u vec)): 
if u vec[r]==0: 
neighitems = self.GetKSimItemsperUser(r,K,u vec) 
#calc predicted rating 


u rec[r] = self.CalcRating(r,u vec,neighitems) 
if indxs: 
#take out the rated movies 
seenindxs = [indx for indx in xrange(len(u vec)) if u vec[indx]»0] 


u rec[seenindxs]--1 
recsvec = np.argsort(u rec)[::-1][np.argsort(u rec)»0] 


return recsvec 
return u rec 
































CF itembased 类 的 构造 函数 ， 计 算 商 品 相 似 度 和 矩阵 simmatrix。 每 次 用 d P 
ZI EH PAARE, AANZE. GetKSimItemsperUser 函数 ， 找 出 天 个 近邻 : 与 给 
XE HIP" Cu. vec) 最 相似 的 用 户 。CalcRating 函数 实现 了 前 面 讨 t indi. 
若 未 找到 近邻 ， 则 将 分 数 设置 为 该 商品 的 平均 分 。 


. 最 简单 的 基于 商品 的 协同 过 滤 一 一 slope one 算法 


除了 用 前 面 讨论 的 度量 方法 计算 相似 度 ， 还 有 一 种 非常 简单 却 很 有 效 的 推荐 算法 。 
我 们 可 以 计算 得 到 矩阵 D， 它 的 每 一 个 元 素 dj 表示 商品 i 和 j 的 平均 差 值 average 


difference): 
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> (5; — ny) n; 
d. = < ~ 
»nj "y 


y 
k=1 
































变量 值 才 为 1， 六 只 表示 








ELS Yi sns 、 1 mr. 5n, 20 
如 果 用 户 为 商品 i 和 j TIXI). n; 2 (打分 数据 缺失 ) 
为 商品 i 和 j 都 打 过 分 的 用 户 数 。 该 算法 跟 我 们 在 套 于 识 羽 记 芒 局 习 涂 一 节 所 讲 的 相同 。 对 
于 每 名 用 户 i 和 每 件 商品 j: 

CD) 找 出 与 商品 / AARNE KER d*y d =d, ede (表示 可 能 的 索引 
值 ， 但 是 简单 起 见 ， 我 们 将 其 标记 为 1 到 KD. 

(2) 计算 加 权 平 均值 ， 将 其 作为 预测 值 : 
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K N j 
dg s 79937 
n kal l=1 
Pij 





^ 














虽然 该 算法 比 其 他 CF 算法 简单 多 了 ， 但 正确 率 不 输 于 它们 ， 并 且 计 算 开 销 更 小 ， 还 易于 
实现 。 下 面 SlopeOne 类 的 实现 方式 ， 非 常 类 似 于 基于 商品 的 CF 方法 的 CF. itembased 类 : 


In [34]: Flass SlopeOne(object): 
def — init (self,Umatrix): 
$calc item similarities matrix 
nitems = len(Umatrix[0]) 
self.difmatrix = np.zeros((nitems,nitems)) 
self.nratings = np.zeros((nitems,nitems)) 
def diffav n(x,y): 
xy 7 np.vstack((x, y)).T 
xy = xy[(xy[:,0]»0) & (xy[:,1]»0)] 
nxy = len(xy) 
if nxy == 0: 
#print “no common' 
return [1000.,0] 
return [float(sum(xy[:,0])-sum(xy[:,1]) )/nxy,nxy] 

















for i in xrange(nitems): 
for j in xrange(nitems): 
if j»-i:ftriangular matrix 
self.difmatrix[i,j],self.nratings[i,j] = diffav n(Umatrix[:,i],Umatrix[:,j]) 
else: 
self.difmatrix[i,j] = -self.difmatrix[j,i] 
self.nratings[i,j] = self.nratings[j,i] 


def GetKSimItemsperUser(self,r,K,u vec): 
items - np.argsort(self.difmatrix[r]) 
items = items[items!"r] 
cnt=0 
neighitems = [] 
for i in items: 
if u_vec[i]>0 and cnt<K: 
neighitems.append(i) 
cnt+=1 
elif cntesK: 
break 
return neighitems 


S 
^ 


CalcRating(self,r,u vec,neighitems): 
rating = 0. 
den = 0. 
for i in neighitems: 
if abs(self.difmatrix[r,i])!=1000: 
rating += (self.difmatrix[r,i]+u vec[i])*self.nratings[r,i] 
den += self.nratings[r,i] 


if den--0: 
#print “no similar diff' 
return 0. 


rating = np.round(rating/den,0) 
if rating »5: 
return 5. 
elif rating «1.: 
return 1. 
return rating 


de 


"^ 


CalcRatings(self,u vec,K): 
fu rec = copy.copy(u vec) 
u rec - np.zeros(len(u vec)) 
for r in xrange(len(u vec)): 
if u vec[r]--0: 
neighitems = self.GetKSimItemsperUser(r,K,u vec) 
#calc predicted rating 
u rec[r] = self.CalcRating(r,u vec,neighitems) 
return u rec 


唯一 的 区 别 在 于 和 矩阵: difmatrix 前 面 已 解释 过 , 该 算法 中 它 是 用 来 计算 商品 i 和 j 的 差 
1H d(ij) Kt GetKSimltemsperUser 寻找 difmatrix 的 最 小 值 ， 以 确定 K 个 近邻 。 两 件 商品 
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有 可 能 (虽然 看 似 不 可 能 ) 没有 人 打 过 分 ， 而 difmatrix 可 以 包含 没有 定义 的 值 ， 默 认 将 其 
设置 为 1000。 预 测 值 可 能 大 于 5 或 小 于 1， 机 到 该 情况 ， 必 须 分 别 将 其 设置 为 5 或 1。 


5.3.2 ”基于 模型 的 协同 过 滤 


该 类 方法 利用 效用 矩阵 生成 模型 ， 抽 取 用 户 的 打分 模式 。 包 含 各 种 模式 的 模型 返回 预 
测 值 ， 填 充 或 逼近 原始 矩阵 〈 德 阵 分 解 )。 人 们 研究 过 各 种 推荐 模型 ， 发 表 过 很 多 论文 。 我 
们 集中 讨论 和 矩阵 分 解 算法 奇异 值 分 解 〈Singular Value Decomposition，SVD， 以 及 最 大 
期 望 算法 )、 交 蔡 最 小 二 乘 (Alternating Least Square，ALS)、 随 机 梯度 下 降 〈Stochastic 
Gradient Descent, SGD) 和 非 负 和 矩阵 分 解 (Non-negative Matrix Factorization, NMF) 算法 。 





















































































































































1. 交替 最 小 二 乘 (ALS) 


这 是 分 解 矩 阵 尺 的 最 简单 方法 。 每 名 用 户 和 每 件 商品 可 以 表示 到 天 维 的 特征 空间 : 























R=PQ"=Ř 


其 中 ，NxK 维 的 矩阵 P RERI ERE, MXK ERER 2 为 商品 在 特征 空 
间 的 映射 。 因 此 ， 这 个 问题 可 以 简化 为 最 小 化 正则 化 后 的 代价 函数 J: 


K 2 A 
J=min} e; - mins M, rj - Y Pady +H 
p,q l p,q L l nmm t 2 


其 中 ，》 为 正则 化 参数 ， 通 过 调整 学 习 到 的 参数 ， 保 证 向 量 p, 和 g7 的 量 级 不 至 于 过 
K, 以 避免 过 拟 合 问题 。 矩阵 元 素 Me 的 值 取决 于 用 户 i 是 否 为 商品 j 打 过 分 , In r0, 
Mey 为 1， 否则 为 0。 对 于 每 个 用 户 向 量 p, 和 商品 向 量 g; ， 令 /的 导数 为 0， 得 到 以 下 两 


个 等 式 : 



























































pl +a) 







































































-1 
Pi -fo Maga) Q! MR; 


1 
À 
qj = (P wejp * Z1) P Mc R; 





其 中 ， 玉 和 Me 为 R、Mc 向 量 的 ; 行 ，R 和 Me) 78 R« Me 向 量 的 j 列 。 交 营 固 定 矩 阵 


P、O， 上 面 两 个 等 式 ， 可 直接 用 最 小 二 乘法 (ALS) "求解 。 下 面 这 个 函数 展示 了 如 何 用 
Python 实现 ALS 算法 : 






















































































QD least square algorithm， 也 称 作 最 小 平方 法 。 一 一 译 者 注 
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In [12]: def ALS(Umatrix, K, iterations*50, l=0.001, tol=0.001): 


nrows = len(Umatrix) 
ncols = len(Umatrix[0]) 
P = np.random.rand(nrows,K) 
Q = np.random.rand(ncols,K) 
Qt = Q.T 
err e 0. 
Umatrix = Umatrix.astype(float) 
mask = Umatrix>0. 
mask[mask--True]-1 
mask[mask--False]-0 
mask = mask.astype(np.float64, copysFalse) 
for it in xrange(iterations): 
for u, mask u in enumerate(mask): 


for i, mask i in enumerate(mask.T): 


np.dot(P.T, np.dot(np.diag(mask i), Umatrix[:,i]))) 
err-np.sum((mask*(Umatrix ~ np.dot(P, Qt)))**2) 
if err « tol: 
break 
return np.round(np.dot(P,Qt),0) 


P[u] = np.linalg.solve(np.dot(Qt, np.dot(np.diag(mask u), Qt.T)) + l*np.eye(K), 
np.dot(Qt, np.dot(np.diag(mask u), Umatrix[u].T))).T 


Qt[:,i] = np.linalg.solve(np.dot(P.T, np.dot(np.diag(mask i), P)) + l*np.eye(K), 

















矩阵 Mc 叫 作 mask, XE 1 表示 正则 化 参数 lambda， 默 认 值 为 0. 















































001。 我 们 用 NumPy 


库 的 linalg.solve 函数 求解 最 小 二 乘 问 题 。 该 方法 通常 没有 随机 梯度 下 降 SGD) 和 奇异 值 








分 解 (SVD)( 见 下 面 几 节 ) 精确 , 但 是 它 易于 实现 , 易于 用 并 行 方法 计算 (因此 速度 较 快 )。 








2. 随机 梯度 下 降 (SGD) 


























该 方法 同样 从 属于 矩阵 分 解 类 别 ， 因 为 它 依赖 于 对 效用 矩阵 尺 的 近 





R2 PO7 -f 


ER, REP ONXKO FIERE O CMxK) 分 别 为 用 户 、 商 品 在 天 
{E 〈representation )。 每 个 近似 的 分 数 广 可 以 表示 为 : 

















(代价 函数 了 同 第 3 章 
Ev] 十 一 > 人 lm 


1 








+ 站 


最 小 化 问题 ， 用 梯度 下 降 方法 求解 〈 见 筋 3 SUAE D: 


€; 
一 = Pir + CQ(2ej9g1 一 ÀDa) 


ik 








Pir = Pu d 








Py = py t&-—— --qy t a(2eq — 444) 


用 ALS 算法 求解 正则 均 方 误 Cregularized squared errors) e; 的 最 小 化 问题 , 1 X 
d): 


似 : 


维 潜在 特征 空间 的 表 
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T t 





K 
HB. a 为 学 习 速率 〈 见 第 3 $), -5 这 ra， 交 蔡 计算 前 面 两 个 等 式 〈 固 
= 



























































dy» Rpr, BRIKET) 直到 收敛 得 到 R。SGD 比 SVD〈 下 一 节 讲 ) 更 易于 并 行 处 
里 (因此 更 快 )。SGD 算法 的 Python 实现 如 下 所 示 : 





Qt = Q.T 
cost=-1 


eij 


for 


cost = 0 


for 


if cost < tol: 
break 





In [11]: def SGD(Umatrix, K, iterations-100, alpha-0.00001, 1=0.001, tol-0.001): 


nrows = len(Umatrix) 

ncols = len(Umatrix[0]) 

P = hp.randon.rand(nrows,K) 
Q = np.random.rand(ncols,K) 


for it in xrange(iterations): 
for i in xrange(nrows): 
for j in xrange(ncols): 
if Umatrix[i][j] > 0: 


for i in xrange(nrows): 
for j in xrange(ncols): 
if Umatrix[i][j]^0: 
cost += pow(Umatrix[i][j]-np.dot(P[i,:],0t[:,31);2) 


return np.round(np. 


= Umatrix[i][j] -np.dot(P[i,:],0t[:,j]) 

k in xrange(K): 

P[i][k] += alpha*(2*eij*Ot[X][j3]-1*P[i][k]) 
Qt[X][3] += alpha*(2*eij*P[i][k]-1*Ot[k][j]) 


k in xrange(K): 
cost += f10at(1/2.0)*(pow(P[i][k],2)*pow(Qt[X](31,2)) 


dot(P,Qt),0) 











SGD 函数 有 几 个 默认 参数 ， 学 习 速 率 a=0.0001， 正 则 化 参数 1= 记 0.001， 最 大 迭代 次 
数 为 1000， 收 敛 判 据 (convergence tolerance) tol=0.001。 同 样 ， 要 注意 的 是 ， 未 打分 的 商 

















品 《〈 分 数 为 0)， 不 参与 计算 。 
































因此 ， 使 用 该 方法 ， 无 须 事 先 填充 缺失 值 〈 插 值 )。 











3. 非 负 矩阵 分 解 (NMF) 





这 一 组 方法 同样 将 P(NxK) MERE O (MxK) 的 积 作为 矩阵 R 的 分 解 CK 为 特征 空 


N 





J 








间 的 维度 )， 但 要 求 矩 阵 元 素 为 非 负 的 。 相 应 的 最 小 化 问题 为 : 











201 E n 1 2 
J= mind - tap Enn] +(1-a) 207 ii| J+aa(ipl+ la) 








参数 a 决定 使 用 哪 种 正则 化 方法 (0 为 平方 ，1 为 套 索 正 则 化 或 两 者 的 混合 )， 和 为 正 


则 化 参数 。 该 最 小 化 问题 有 几 种 解法 ， 比 如 投影 梯度 法 Cprojected gradient), 4er F BEA 

















Ccoordinate descent)、 非 负 约束 最 小 二 乘法 Cnon-negativity constrained least squares)。 这 些 








方法 的 详细 讨论 超出 本 书 讲解 范 
的 坐标 下 降 法 : 











O 原 书 误 写 为 “NFM”。 一 一 译 者 注 


n Aan 
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亡 围 ， 但 是 我 们 自己 编写 函数 时 ， 用 到 了 sklearn NMF" 实 现 














VW abite» dy tio 34 Sla com) 专 享 


u 


重 版 权 





53 ”协同 过 滤 方 法 


129 








In [13]: 


from sklearn.dec 
def NMF alg(Umat 


R tmp = copy. 


omposition import NMF 
rix,K,inp-'none',1-0.001): 
copy (Umatrix) 


R tmp - R tmp.astype(float) 


fimputation 


if inp !- 'none': 


R tmp - 


imputation(inp,Umatrix) 


nmf = NMF(n components-K,alpha-1l) 
P - nmf.fit transform(R tmp) 
R tmp - np.dot(P,nmf.components ) 


return R tmp 








分 解 矩 阵 之 前 ， 可 对 入 


默认 值 为 0.01: 




















4. 奇异 值 分 解 (SVD) 


作为 特征 降 维 方法 ， 第 2 E 

















但 首先 要 | 




















































































































H SVD 分 解 矩 阵 
插值 方法 ， 估 计 每 位 用 户 的 缺失 值 ， 最 常用 的 插值 方法 是 ， 取 效用 矩阵 的 每 行 





E 阵 插值 。 函 数 fit transform 返回 P 和 矩阵， 而 27 矩阵 存储 于 
nmf.components X Z. a 的 默认 值 为 0〈 平 方正 则 化 )， 我 们 将 其 设置 为 1: 
1=0.01。 既 然 效 用 算 阵 元 素 为 正 值 (分 数 )，i 


alpha-l. A 的 
这 类 方法 必然 是 预测 分 数 的 好 


已 讨论 过 该 算法 ， 我们 将 矩阵 分 解 为 U，>、V( 更 多 技术 
细节 ， 见 第 2 章 )， 用 它们 来 近似 表示 矩阵。 在 协同 过 滤 算 法 中 ， 我 们 月 


, 


(或 列 ) 或 两 者 的 均值 (而 不 是 留 下 0 EAT BO 蔡 代 缺失 值 。 除 了 直接 用 SVD 算法 分 解 效 


用 和 矩阵， 


(2) 期 望 步 : 方 = 







































































还 可 以 用 最 大 期 望 算法 〈 第 2 章 )， 先 从 矩阵 尺 = 尺 着 手 : 
COD 最 大 化 步 : 








i SER = SFD(OR) 
六 如果 用 户 打 过 分 数 
六 (打分 数据 缺失 ) 


























重复 以 上 两 步 ， 直 到 均 方 误 之 和 > (s, -AY 小 于 给 定 的 容忍 值 (tolerance )。 该 算法 及 


或 
lm. 








单 的 SVD 分 解 ， 代 码 如 下 : 








In [14]: from sklearn.decomposition import TruncatedSVD 
def SVD(Umatrix,K,inp-" 

R tmp * copy.copy(Umatrix) 

R tmp = R tmp.astype(float) 


Fimputation 
if inp l= 'none 


R tmp * DoE ORE Umatrix) 


means = np.array([ 


R tmp = R tmp-means 


svd = TruncatedSVD, 


Rk = svd.fit_transform(R_tap) 
R tmp = svd.inverse transform(R k) 
R tmp = means^R tmp 


return np.round(R tmp,0) 


none'): 


R tmp[i][R tmp[i]»0].mean() for i in xrange(len(R tmp))]).reshape(-1,1) 


(n components*K, random state=4) 








T 
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In [15]: def SVD EM(Umatrix,K,inpe'none',iterations-50,tole0.001): 
R tmp = ERE mum x) 
R tmp * R tmp.astype(float) 


LAC ZEE n(inp,Umatrix) 
define svd 
svd = E atedSVD(n componentseK, random states) 
err = -1 
for it in xrange(iterations): 

#m-step 





if acris mt 
pov(Umatrix[i][j]- -R tzp[i][j],2) 
x tmp 13] = Umatrix[i][j] 


if err « tol: 
print it,'toll reached!" 


break 
return np.round(R tzp,0) 














我 们 用 的 是 skleam 库 实现 的 SVD 算法 ， 并 实现 了 两 种 均值 插值 方法 C) 



































j 户 打分 的 均值 和 





商品 得 分 的 均值 )， 虽 然 我 们 默认 用 参数 值 none， 即 用 0 值 作为 缺失 值 的 初始 值 。 最 大 期 望 SVD 
算法 ， 其 他 默认 参数 有 收敛 判 据 〈0.0001) 和 最 大 迭代 次 数 (1100000. SVD 算法 (尤其 是 用 最 大 































































































期 望 算法 ) 比 ALS 要 慢 ， 但 正确 率 通常 更 高 。 还 要 注意 的 是 ， 用 SVD 方法 分 解 效 用 和 矩阵 时 ， 减 























去 了 用 户 打分 的 均值 , 因为 这 样 做 效果 通常 更 好 (SVD 矩阵 计算 完成 后 ， 


本 节 最 后 , 我 们 再 声明 一 点 ，SVD 分 解 还 可 用 于 基于 记忆 的 CF 方法 , 在 降 维 后 的 空间 CR 
E URV) 比较 用 户 或 商品 ， 然 后 再 根据 原来 的 效用 和 矩阵 给 出 分 数 〈SVD 结合 k-NN 方法 )。 





























5.4 CBF 方 ; 




















dr ER 




















有 户 打分 的 均值 )。 


Tut 

















该 类 方法 从 描述 商品 的 数据 中 抽取 用 户 的 特征 。MovieLens 这 个 例子 ， 每 部 电影 7 都 有 一 组 G 
动画 、 儿 童 、 喜 剧 、 犯 
罪 、 纪 录 、 剧 情 、 约 想 、 黑 色 电 影 、 恐 怖 、 音 乐 、 神 秘 、 浪 漫 、 科 约 、 人 惊悚 、 战 争 或 美国 西部 片 。 























个 二 进 制 字段 ， 来 表明 电影 具有 以 下 哪 种 类 型 的 要 素 : 未知 、 动 作 、 


























我 们 用 这 些 特征 《类 型 ) 来 刻画 电影 ， 将 每 部 电影 表示 为 G 维 






































I 
E Pw. 











二 进 制 向 量 mj ， 电 影 7 包含 哪 种 类 型 ， 向 量 中 代表 该 类 型 的 元 素 值 为 1， 








存储 着 效用 矩阵 dfout 的 DataFrame XJ 28 CU ZAE T), 下 
并 将 其 置 于 DataFrame 对 象 dfout movies 之 中 : 



































(电影 类 型 的 数量 ) 的 





否则 为 0。 给 定 





i 代码 构造 二 进 制 向 量 m， 





In [ ]: #matrix movies's cont 
rp = [i Sut ETT 3')(-1]) for m in dfout.columns[1:]] 


'Drama','Fantasy','Film-Noir','Horror', Musical','Mystery', 
qiue (,'Sci-Fi','Thriller','War', 'Western' ] 
dfout movies = pd.DataFrame(columns-['movie id']*mov. ats) 
startcatsindx = 5 
cnt= (| 
for m in movieslist: 
dfout movies.loc[cnt] = [m]*df info.iloc[m-1][startcatsindx:].tolist() 
cnt +=1 
print dfout movies.head() 





dfout movies.to csv('data/movies content.csv',indexeNone) 


moviescats = ['unknown','Action', Adventure','Animation','ChildrenV's', 'Comedy', 'Crime', Documentary" 











KERA REETIKA] movies content.csv 文件 ， 后 面 CBF 方法 会 用 到 该 文件 。 
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程度 。 该 方法 的 问题 是 ， 








基于 内 容 进行 推荐 的 系统 , 其 目标 是 生成 用 户 画 像 ， 用 相同 字段 表明 ) 
有 时 无 法 描述 商品 的 内 容 ， 因 贞 
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] 户 喜欢 每 种 类 型 的 
在 电子 商务 环境 该 方法 并 不 总 是 可 行 























的 。 该 方法 的 优点 在 于 ， 针 对 特定 用 / 





的 推 





存 ， 独立 J 





他 用 户 的 打分 情况 ， 因 此 不 会 因为 特 























N 





定 商品 打分 人 数 不 足 而 受 












































用 户 喜 欢 的 电影 最 相似 的 电影 。 方法 二 ， 
征 ， 生 成 用 户 画像 特征 。 用 其 他 用 户 的 画 


5.4.1 ”商品 特征 平均 得 分 方法 





























象 ， 














该 方法 确 




















正则 化 线性 





制 于 冷 启 动 问题 。 我 们 将 讨论 两 种 推荐 方法 ， 从 中 找 出 最 佳 的 。 方 法 
一 ， 计 算 每 位 用 户 每 种 类 型 电影 的 平均 分 数 ， 生 成 用 户 画 像 ， 用 余弦 相似 度 度 




















量 方法 ， 找 出 跟 
归 模型 ， 根 据 用 户 打分 数据 和 电影 特 
户 尚 未 看 过 的 电影 分 数 。 











回 
预测 每 位 / 

















Bi, 
Hm 














实 非常 简单 ， 我 们 用 MovieLens 例子 描述 电影 的 特征 来 解释 该 方法 ， 这 些 特 

















征 前 面 讲 过 。 该 方法 的 目标 是 为 每 位 用 户 i 生成 1 











类 型 g; 





为 G)。 有 具体 要 计算 
类 型 g 的 





均 分 元 和 每 种 








部 电 








rH 





HP, WREEK k URRA g, Ig l 
AHE V AHER] E m 
我 们 用 一 个 Python 类 实现 i — 























之 间 的 余弦 相似 度 ， 将 相似 度 最 


E 
电影 类 型 喜 

















好 向 量 v = (wo Visa) (长 度 
v 的 计算 方法 是 ， 用 户 i MD 所 看 过 的 包含 


影 的 得 分 ， 减 去 平均 分 之 后 再 加 总 ， 然 后 除 以 包含 类 型 g 的 电影 数量 : 
px Fi -HMg 


Y T kg 
k=0 





否则 为 0。 


高 的 电影 推荐 给 用 户 i。 








In [16]: class CBF averageprofile(object): 
init (self,Movies,Movieslist): 


#calc user profiles: 
Self.nfeatures = len(Movies[0]) 
self.Movieslist = Movieslist 
self.Movies - Movies 


#generate user profile 
nmovies = len(u vec) 
nfeatures = self.nfeatures 
mean u = u vec[u vec»0].mean() 
diff u = u vec-mean u 


cnts = np.zeros(nfeatures) 
for m in xrange(nmovies): 
if u vec[m]»0:fu has rated m 
features u += self.Movies[m]* 
cents += self.Movies[m] 
faverage: 
for m in xrange(nfeatures): 
if cnts[m]»0: 
features u[m] = features u[m] 


#calc sim: 
sims = np.zeros(nmovies) 
for m in xrange(nmovies): 

if u vec[m]e-0:4sim only for mo 

sims[m] = sim(features u,self 

Forder movies 
order movies indxs - np.argsort(sims 
if indxs: 


return order movies indxs 





GetRecMovies(self,u vec,indxs-False): 


features u = np.zeros(nfeatures).astype(float) 


vies not yet rated by the user 


return self.Movieslist[order movies indxs] 


(diff u[m]) 


/float(ents[m]) 


Movies [m]) 


)[::-1] 
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构造 器 将 电影 名 称 存储 于 MoviesList 列表 ， 电 影 特 征 存储 于 Movies 向 量 ，GetRecMovies 
函数 生成 用 户 喜欢 的 电影 类 型 向 量 w (用 这 一 节 的 公式 )， 也 就 是 代码 中 的 features u， 然 
后 返回 与 该 向 量 最 相似 的 电影 。 


5.4.2 ”正则 化 线性 回归 方法 


该 方法 学 习 线 性 模型 的 参数 0 iE0,…,N-1，0 ER™: 0,=1，N 为 用 户 数 ，G 为 每 个 
商品 的 特征 数 《〈 电 影 类 型 数 )。 我 们 为 用 户 参 数 0 〈6u=1) 增加 截 距 项 Cintercept value), 
同样 为 电影 向 量 m) 增加 截 距 项 ，mjo=1， 因 此 mm/ ERc 1。 为 了 学 习 参 数 向 量 q;， 需 要 求解 
以 下 带 正则 项 的 最 小 化 问题 : 






















































































其 中 ，Z 为 1， 表 示 用 户 i 为 这 部 电影 打 过 分 ， 否 则 j 为 0，4 为 正则 化 参数 〈 见 第 3 章 )。 
这 个 最 小 化 问题 可 以 用 梯度 下 降 法 求解 〈 见 第 3 章 )。 对 于 每 位 用 户 i: 











M-1 
e 0o=0,— x. (8 m; Es r; )M ol; (k=0) 
j-0 


M- 


« d 28. zl (8m, -nmal nat +40 (k » 0) 


i 





我 们 分 别 为 电影 和 用 户 向 量 增加 了 一 截 距 项 ， 而 截 距 参数 A0) 和 其 他 参数 的 学 习 ， 
需要 区 别 开 来 〈 因 为 截 距 不 存在 过 拟 合 的 可 能 性 ， 不 用 对 其 进行 正则 化 处 理 )。 学 习 到 参数 
之后， 对 于 任何 缺失 值 ;, ， 用 公式 六 = grm 求解。 


该 方法 的 代码 实现 如 下 : 


















































In [35]: class CBF regression(object): 
def init (self,Movies,Umatrix,alpha=0.01,1=0.0001,its=50,tol=0.001): 
#calc parameters: 
self.nfeatures = len(Movies[0])*1£intercept 
nusers = len(Umatrix) 
nmovies = len(Umatrix[0]) 
fadd intercept col 
movies feats = np.ones((nmovies,self.nfeatures)) 
movies feats[:,1:] = Movies 
self.movies feats - movies feats.astype(float) 


#set Umatrix as float 
self.Umatrix - Umatrix.astype(float) 
Ffinitialize the matrix: 
Pmatrix = np.random.rand(nusers,self.nfeatures) 
Pmatrix[:,0]71. 
err = 0. 
cost = -1 
for it in xrange(its): 
print 'it:',it,' -- ',cost 
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#find 
s 90. 





for u in xrange(nusers): 


cost = 0 
for u in xrange(nusers): 


if cost « tol: 


self.Pmatrix = Pmatrix 


CalcRatings(self,u vec): 


u feats = np.zeros(len(self.Pmatrix[0])) 
#in case the user is not present in the utility matrix find the most similar 
for u in xrange(len(self.Umatrix)): 

#print self.Umatrix[u] 

tmps = sim(self.Umatrix[u],u vec) 

if tmps » s: 


if s == 1.: 
new vec = np.zeros(len(u vec)) 
for r in xrange(len(u vec)): 
if u vec[r]--0: 


return new vec 


for f in xrange(self.nfeatures): 
if f==0:#no regularization 
for m in xrange(nmovies): 
if self.Umatrix[u,m]»0: 
diff = np.dot(Pmatrix[u],self.movies feats[m])-self.Umatrix[u,m] 
Pmatrix[u,f] += -alpha*(diff*self.movies feats[m][f]) 
else: 
for m in xrange(nmovies): 
if self.Umatrix[u,m]»0: 
diff = np.dot(Pmatrix[u],self.movies feats[m])-self.Umatrix[u,m] 
Pmatrix[u,f] += -alpha*(diff*self.movies feats[m][f] *l*Pmatrix[u][f]) 


for m in xrange(nmovies): 
if self.Umatrix[u][m]»0: 
cost += 0.5*pow(Umatrix[u][m]-np.dot(Pmatrix[u],self.movies feats[m]),2) 
for f in xrange(1l,self.nfeatures): 
cost += float(1/2.0)*(pow(Pmatrix[u][f],2)) 


print 'err',cost 
break 


u vec 


s = tmps 
u feats = self.Pmatrix[u] 


break 


new vec[r] = np.dot(u feats,self.movies feats[r]) 




















构造 器 CBF regression 用 梯度 下 降 方 法 寻找 参数 6 (代码 中 的 Pmatrix )， 函 数 
CalcRatings 从 效用 和 矩阵 尺 《〈 用 户 不 在 效用 和 矩阵 中 ) 找 出 最 相似 的 分 数 向 量 ， 然 后 利用 相应 








的 参数 向 量 预测 缺失 




















值 。 


5.5 用 关联 规则 学 习 ， 构 建 推荐 系统 





























虽然 很 多 商业 推荐 系统 往往 不 使 用 关联 规则 挖掘 ， 但 由 于 它 可 以 利用 历史 数据 ， 因 此 
我 们 应 该 了 解 该 方法 。 其 实 ， 我 们 可 以 用 它 解 决 多 种 实际 问题 。 该 方法 的 主要 思想 是 ， 统 
计 交 易 数据 库 7 中 商品 的 出 现 情况 ， 找 到 商品 之 间 的 关系 〈 例 如， 用 户 i 看 过 的 电影 或 购 
买 的 商品 , 可 以 看 作 是 一 条 交易 数据 )。 更 正式 地 讲 , 一 条 规则 可 以 是 {item1, item2}=>{item3} 














这 


> 


单 的 形式 ， 即 一 组 





用 以 下 两 个 定义 来 刻画 





























商品 {item1，item2} 上 暗示 着 男 一 组 商品 {item3} 的 存在 。 每 条 X=Y 





。 支持 度 〈support): 给 定 一 组 商品 忆 其 支持 度 spp 为 包含 并 的 交易 数据 占 总 交 
易 数 据 的 比例 。 
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置信 和 度 (confidence): 





同时 包含 和 和 了 的 交易 数据 占 只 包含 筷 的 比例 : conf aX Y)-supp(X 


U Yysupp(X).. Ez EE conhX=>7 了 的 值 可 能 与 conhY=> 加 差别 较 大 。 


支持 度 表 示 一 








条 规则 在 交易 数据 库 中 的 频率 ， 而 置信 和 度 表 示 出 现 的 情况 下 ， 了 出 现 




















的 概率 。 换 句 话说 ， 我 们 月 
满足 条 件 的 规则 就 越 少 )， 


支持 度 筛选 我 们 希望 从 数据 库 挖掘 的 规则 (支持 度 定 的 越 高 ， 
而 置信 和 度 可 以 看 作 是 和 了 的 相似 度 度 量 方法 。 回 到 电影 推荐 




















系统 这 个 例子 ， 交 易 数据 库 可 以 从 效用 和 矩阵 R 生成 : 从 每 位 用 户 喜 欢 的 电影 中 ， 寻 找 由 蕊 

















和 了 组 成 的 规则 ， 其 中 集合 并 和 了 各 只 


织 这 些 规 则 ,和 矩阵 的 每 个 元 素 ass_matrixii 表示 规则 i—j 的 置 











‘包含 一 个 商品 (电影 )。 我们 用 和 矩 阵 ass matrix 来 组 
H. H ass_matrix X UH 




















的 打分 向 量 u vec， 就 能 得 到 向 该 ) 








o recitems = uvec: 


assmatrix, 对 recitems 


而 ， 该 方法 得 到 的 不 是 对 电影 打分 的 预测 ， 而 是 











排序 ， 优 先 推荐 recitems 值 大 的 电影 。 因 


电影 的 推荐 列表 ; 
果 。 对 于 如 何以 最 快 的 速度 找到 所 有 可 能 的 商品 
apriori 和 fp-growth 算法 (我 们 不 再 讨论 ， 








方法 


YA: 


一 个 商品 )。 
下 面 我 们 月 








关联 规则 方法 速度 快 ， 即 使 效用 矩阵 为 稀疏 矩阵 ， 也 能 取得 较 好 的 效 
组 合 ， 以 得 到 和 和 Y, 文献 中 提 到 了 两 种 
因为 我 们 要 找 的 规则 中 X、 了 都 只 包含 











一 个 类 来 实现 关联 规则 推荐 : 








In [36]: 


def 


class AssociationRules(object): 
. init  (self,Umatrix,Movieslist,min supports0.1,min confidences0.1,likethresholds3): 


transactions = [] 


self.min support - min support 

self.min confidence = min confidence 
self.Movieslist = Movieslist 

transform utility matrix to sets of liked items 
nitems = len(Umatrix[0]) 


for u in Umatrix: 

$ = [i for i in xrange(len(u)) if u[i]»likethreshold] 

if len(s)»0: 

transactions.append(s) 

find sets of 2 items 
flat = [item for sublist in transactions for item in sublist] 
inititems = map(frozenset,( [item] for item in frozenset(flat)]) 
set trans * map(set, transactions) 
sets init, self.dict sets support = self.filterSet(set trans, inititems) 
setlen = 2 
items tmp = self.combine lists(sets init, setlen) 
self.freq sets, sup tmp - self.filterSet(set trans, items tmp) 
self.dict sets support.update(sup tmp) 
self.ass matrix = np.zeros((nitems,nitems)) 
for freqset in self.freq sets: 

#print 'fregset',fregset 

list setitems = [frozenset([item]) for item in fregset] 

#print "freqSet", freqset, 'Hl1', list setitems 

self.calc confidence matrix(freqset, list setitems) 


filterSet(self,set trans, likeditems): 


itemscnt = () 
for id in set t 
for item in 


num items - flo 
freq sets - [] 
dict sets - () 





if item.issubset(id): 
itemscnt.setdefault(item, 0) 
itemscnt[item] += 1 


for key in itemscnt: 
support = itemscnt[key] / num_items 


rans: 
likeditems: 


at(len(set trans)) 
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if 


return 


return 


if 





return 


dict sets[key] * support 


def combine lists(self,freq sets, setlen): 
setitems list - [] 
nsets = len(freq sets) 
for i in range(nsets): 
for j in range(i * 1, nsets): 


def calc confidence matrix(self,freqset, list setitems): 
for target in list setitems: 
confidence - self.dict sets support[freqset] / self.dict sets support[freqset - target] 


def GetRecItems(self,u vec,indxs-False): 

vec recs * np.dot(u vec,self.ass matrix) 

Sortedweight = np.argsort(vec recs) 

seenindxs = [indx for indx in xrange(len(u vec)) if u vec[indx]»0] 

seenmovies = np.array(self.Movieslist)[seenindxs] 

#remove seen items 

recitems = np.array(self.Movieslist)[sortedweight] 

recitems - [m for m in recitems if m not in seenmovies] 

if indxs: 
vec recs[seenindxs]--1 
recsvec = np.argsort(vec recs)[::-1][np.argsort(vec recs)»0] 
return recsvec 


support >= self.min support: 
freq sets.insert(0, key) 


freq sets, dict sets 


setlistl = list(freg sets[i])[:setlen - 2] 
setlist2 = list(freqg sets[j])[:setlen - 2] 
if set(setlistl) == set(setlist2): 
setitems list.append(freq sets[i].union(freq sets[j])) 
setitems list 


confidence >= self.min confidence: 
self.ass matrix[list(fregset - target)[0]][list(target)[0]] = confidence 





recitems[::-1] 

















2S peras UH HERE Umatrix、 电影 名 称 列表 Movieslist. FRR min support GR 
认为 0... BAZE min confidence. 〈 默 认为 0.1) 和 将 交易 数据 中 电影 纳入 考虑 范围 的 最 低 
分 数 likethreshold 〈 默 认为 3)。 函 数 combine lists 寻找 所 有 可 能 的 规则 ， 而 filterSet 过 滤 规 则 ， 
找 出 满足 最 小 支持 度 冰 值 的 规则 。calc_confidence matrix 用 满足 最 小 效 值 〈 和 否则 默认 为 0) 的 置 




















信和 度 填 充 ass. matrix 4| 




































































E 阵 。GetRecItems 根据 用 户 的 分 数 u_ vec， 返 回电 影 推荐 列表 。 





5.6 对 数 似 然 比 推荐 方法 


对 数 似 然 比 (Log-Likelihood Ratio, LLR) 是 度量 事件 4、 不 太 可 能 是 独立 事件 ， 
是 共 现 几率 大 于 偶然 〈 比 一 个 事件 单独 发 生 更 加 频繁 ) 的 一 种 方法 。 换 言 之 ，LLR 表明 事 


























E) 



































Tr A 和 B 共 现 的 频率 ， 比 正常 分 布 〈 两 个 事件 上 的 分 布 ) 所 能 预测 的 要 显著 。 


Ted Dunning ( http://tdunning.blogspot.it/2008/03/surprise-and-coincidence.html ) 讲 过 ,我 
们 可 以 借助 事件 4 M B 的 二 项 分 布 来 定义 LLR， 二 项 分 布 矩 阵 太 及 LLR 的 公式 为 : 

















表 5.1 











A Not A 
B k11 k12 
Not B k21 k22 
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LLR = 2N (H [ks ka ho J ES nl ke ] (Lis ess s 3) 


len(p) 





7x 


i=0 


A. 


H, N =k; th +h rk, H(p)- > P: / Nlog(p,/ N) 为 度量 向 量 p 





注意 : HE, f Ry kas) -H (li + kia + ka + ka) -H (lk 











所 包含 信息 的 香 





ka + k + ky) 也 称 为 两 个 事 


件 变 量 4 M B 的 互信 息 Mutual Information; MD, 它 度量 的 是 两 个 事件 的 发 生 是 如 何 彼此 相关 的 。 














II 


这 种 检验 方法 也 叫 作 G2， 已 证 实 它 在 检测 稀少 事件 〈 万 














常 

















欢 一 部 电影 ” 


是 文本 分 析 ) 的 共 现 方面 非 


了 效 ， 因 此 可 用 于 数据 稀疏 的 情况 《比如 例子 中 的 效用 矩阵)。 


再 回 到 电影 推荐 的 例子 ， 事 件 4 和 B 对 应 的 是 用 户 喜 欢 或 不 喜欢 电影 4 和 B。 事 人 
的 定义 是 ， 打 分 大 于 3 分 (反之 ,不 喜欢 )。 我 们 用 下 面 这 个 类 实现 该 算法 : 


E-- 3 
€ x 
H 











In [19]: class LogLikelihood(object): 
def init (self,Umatrix,Movieslist,likethresholde3): 
Self.Movieslist - Movieslist 
Kfcalculate loglikelihood ratio for each pair 
Self.nusers = len(Umatrix) 
self.Umatrix -Umatrix 
self.likethreshold = likethreshold 
self.likerange = range(self.likethreshold*1,5*41) 
self.dislikerange = range(l,self.likethreshold*1) 
self.loglikelihood ratio() 
def calc k(self,a,b): 
tmpk = [[0 for j in range(2)] for i in range(2)] 
for ratings in self.Umatrix: 
if ratings[a] in self.likerange and ratings[b] in self.likerange: 
tmpk[0][0] += 1 
if ratings[a] in self.likerange and ratings[b] in self.dislikerange: 
tmpk[0][1] += 1 
if ratings[a] in self.dislikerange and ratings[b] in self.likerange: 
tmpk[1][0] += 1 
if ratings[a] in self.dislikerange and ratings[b] in self.dislikerange: 
tmpk(1][1] += 1 
return tmpk 
def calc llr(self,k matrix): 
Hcols*Hrowse*Htote0.0 
if sum(k matrix[0])*sum(k matrix[1])==0: 
return 0 
invN = 1.0/(sum(k matrix[0])*sum(k matrix[1])) 
for i in range(0,2): 
if((k matrix[0][i]*k matrix[1][i])!90.0): 


if((k matrix[i][O]*k matrix[i][1])!70.0): 


for j in range(0,2): 
if(k matrix[i][j]!90.0): 
Etot *-invN*k matrix[i][j]*math.log(invN*k matrix[i][j]) 
return 2.0*(Htot-Hcols-BHrows)/invN 


loglikelihood ratio(self): 
nitems = len(self.Movieslist) 
self.items llre pd.DataFrame(np.zeros((nitems,nitems))).astype(float) 
for i in xrange(nitems): 
for j in xrange(nitems): 
if(j»-i): 
tmpk-self.calc k(i,j) 
self.items llr.ix[i,j] * self.calc llr(tmpk) 
else: 
self.items llr.ix[i,j] = self.items llr.iat[j,i] 
def GetRecItems(self,u vec,indxs-False): 
items weight = np.dot(u vec,self.items llr) 
sortedweight = np.argsort(items weight) 
seenindxs = [indx for indx in xrange(len(u vec)) if u vec[indx]»0] 
seenmovies = np.array(self.Movieslist)[seenindxs] 
fremove seen items 
recitems = np.array(self.Movieslist)|[sortedweight] 
recitems = [m for m in recitems if m not in seenmovies] 
if indxs: 
items weight[seenindxs]s-1 
recsvec = np.argsort(items weight)[::-1][np.argsort(items weight)»0] 
return recsvec 
return recitems[::-1] 





Hcols += invN*(k matrix[0][i]*k matrix[1][i])*math.log((k matrix[0][i]*k matrix[1][i])*invN )£sum of row| 


Hrows += invN*(k matrix[i][0]*k matrix[i][1])*math.log((k matrix[i][0]*k matrix[i][1])*invN )#sum of col 
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构造 器 的 参数 有 效用 和 矩阵、 电影 名 称 列表 和 判断 用 户 是 否 喜 欢 电影 的 阔 值 likethreshold 
《默认 为 3)。 函 数 loglikelihood_ratio 计算 矩阵 kK(calc_k) 和 相应 的 LER ( calc. lr), 为 每 一 对 
Eó ij ÆR LLR ff. PAZ, GetRecItems 返回 用 户 ( 该 用 户 的 打分 数据 为 u_vec) 的 电影 
推荐 列表 该 方法 不 预测 打分 数据 )。 


5. 7 混合 推荐 系统 


















































m 























这 类 方法 为 了 达到 更 理想 的 效果 ， 在 推荐 引擎 中 结合 使 用 CBF 和 CF 方法 。 业 界 尝试 
过 多 种 混合 推荐 方法 ， 归 结 起 来 不 外 乎 以 下 几 种 : 


e 加 权 : 对 CBF 和 CF 预测 得 到 的 分 数 ， 取 加 权 平 均值 。 

。 混合 : 分 别 用 CF 和 CBF 预测 ， 然 后 将 预测 结果 合并 为 一 个 列表 。 
。 切换 : 根据 特定 的 规则 ， 选 择 使 用 CF 或 CBF 预测 方法 。 
。 特征 组 合 : 综合 考虑 CF 和 CBF 的 特征 ， 找 到 最 相似 的 用 户 或 商品 。 


。 特征 扩充 〈Feature augmentation): 类 似 于 特征 组 合 ， 但 还 要 用 附加 特征 预测 分 数 ， 
然后 主推 荐 引擎 使 用 得 到 的 分 数 生成 推荐 列表 。 例如 , 对 于 基于 内 容 的 模型 未 打 过 
分 的 电影 ， 内 容 增 强 型 协同 过 滤 (Content-Boosted Collaborative Filtering) 学 习 为 
其 打分 ， 然 后 再 用 协同 过 滤 方 法 确定 推荐 列表 。 


举 个 例子 ， 我 们 结合 基于 商品 特征 的 CBF 方法 和 基于 用 户 的 CF 方法 ， 实 现 两 种 混合 
的 特征 组 合 方法 。 方 法 一 采用 基于 用 户 的 CF, 扩展 效用 矩阵， 增加 每 种 电影 类 型 每 位 用 户 
的 平均 分 。 有 具体 实现 方法 见 下 面 这 个 类 ; 


In [37]: class Hybrid cbf cf(object): 
def init (self,Movies,Movieslist,Umatrix): 
fcalc user profiles: 
self.nfeatures - len(Movies[0]) 
self.Movieslist - Movieslist 
self.Movies = Movies.astype(f1loat) 
self.Umatrix mfeats = np.zeros((len(Umatrix),len(Umatrix[0])*self.nfeatures)) 
means = np.array([ Umatrix[i][Umatrix[i]»0].mean() for i in xrange(len(Umatrix))]).reshape(-1,1) 
diffs = np.array([ [Umatrix[i][j]-means[i] if Umatrix[i][j]^0 else 0. 
for j in xrange(len(Umatrix(i])) ] for i in xrange(len(Umatrix))]) 

self.Umatrix mfeats[:,:len(Umatrix[0])] = Umatrix#diffs 
self.nmovies = len(Movies) 
#calc item features for each user 
for u in xrange(len(Umatrix)): 

u vec = Umatrix[u] 

self.Umatrix mfeats[u,len(Umatrix[0]):] = self.GetUserItemFeatures(u vec) 













































































































































































def GetUserItemFeatures(self,u vec): 

mean u * u vec[u vec»0].mean() 

#diff_u = u vec-mean u 

features u * np.zeros(self.nfeatures).astype(float) 

cnts = np.zeros(self.nfeatures) 

for m in xrange(self.nmovies): 

if u vec[m]»0:£u has rated m 
features u += self.Movies[m]*u vec[m]£self.Movies[m]*(diff u[m]) 
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cnts += self.Movies[m] 
faverage: 
for m in xrange(self.nfeatures): 
if cnts[m]»0: 
features u[m] = features u[m]/float(cnts[m]) 
return features u 


def CalcRating(u vec,r,neighs): 
rating * 0. 
den = 0. 
for j in xrange(len(neighs)): 
rating += neighs[j][-1]*float(neighs[j][r]-neichs[j][neighs[j]»0][:-1].mean()) 
den += abs(neighs[j][-1]) 
if den»0: 
rating = np.round(u vec[u vec»0].mean()*(rating/den),0) 
else: 
rating = np.round(u vec[u vec»0].mean(),0) 
if rating»5: 
return 5. 
elif rating«cl: 
return 1. 
return rating 
#add similarity col 
nrows = len(self.Umatrix mfeats) 
ncols = len(self.Umatrix mfeats[0]) 
data sim = np.zeros((nrows,ncols*1)) 
data sim[:,:-1] * self.Umatrix mfeats 
u rec = np.zeros(len(u vec)) 
#calc similarities: 
mean = u vec[u vec»0].mean() 
u vec feats = u vecénp.array([u vec[i]-mean if u vec[i]^»0 else 0 for i in xrange(len(u vec))]) 
u vec feats = np.append(u vec feats,self.GetUserItemFeatures(u vec)) 


for u in xrange(nrows): 
if np.array equal(data sim[u,:-1],u vec)--False: slist(data sim[u,:-1]) !- list(u vec): 
data sim[u,ncols] = sim(data sim[u,:-1],u vec feats) 
else: 
data sim[u,ncols] = 0. 
#order by similarity: 
data sim[:,:-1] = self.Umatrix mfeats 
u rec * np.zeros(len(u vec)) 
calc similarities: 
mean = u vec[u vec»0].mean() 
u vec feats = u vecfnp.array([u vec[i]-mean if u vec[i]»0 else 0 for i in xrange(len(u vec))]) 
u vec feats = np.append(u vec feats,self.GetUserItemFeatures(u vec)) 


for u in xrange(nrows): 
if np.array equal(data sim[u,:-1],u vec)*e-False: slist(data sim[u,:-1]) !* list(u vec): 
data sim[u,ncols] = sim(data sim[u,:-1],u vec feats) 
else: 
data sim[u,ncols] = 0. 
Forder by similarity: 
data sim -data sim[data sim[:,ncols].argsort()][::-1] 
#find the K users for each item not rated: 


for r in xrange(self.nmovies): 
if u_vec[r]==0: 
neighs = FindKNeighbours(r,data sim,K) 
fcalc the predicted ratind 
u rec[r] * CalcRating(u vec,r,neighs) 
return u rec 














构造 器 生成 新 的 效用 和 矩阵 Umatrix_mfeats， 为 每 位 用 户 增加 了 他 为 每 种 类 型 的 电影 


的 平均 分 这 个 特征 。 函 数 CalcRatings 使 月 

















I 





皮尔 逊 相关 系数 度量 方法 ， 比 较 每 位 用 户 扩展 后 


的 特征 向 量 ， 找 出 OK 个 近邻 。 方 法 二 ， 用 SVD 方法 扩展 效用 矩阵， 将 每 位 用 户 的 类 型 喜 


好 整合 进去 。 








In [22]: class Hybrid svd(object): 
def init (self,Movies,Movieslist,Umatrix,K,inp): 


#calc user profiles: 
self.nfeatures = len(Movies[0]) 
self.Movieslist = Movieslist 
self.Movies * Movies.astype(float) 
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R tmp = copy.copy(Umatrix) 
R tmp = R tmp.astype(float) 
fgimputation 


if inp != 'none': 

R tmp * imputation(inp,Umatrix) 
Umatrix mfeats * np.zeros((len(Umatrix),len(Umatrix[0])*self.nfeatures)) 
means = np.array([ Umatrix[i][Umatrix[i]»0].mean() for i in xrange(len(Umatrix))]).reshape(-1,1) 
diffs = np.array([ [float(Umatrix[i][j]-means[i]) 

if Umatrix[i][j]^O else float(R tmp[i][j]-means[i]) for j in xrange(len(Umatrix[i])) 
for i in xrange(len(Umatrix))]) 

Umatrix mfeats[:,:len(Umatrix[0])] = diffs#R tmp 
self.nmovies = len(Movies) 
calc item features for each user 
for u in xrange(len(Umatrix)): 

u vec * Umatrix[u] 

Umatrix mfeats[u,len(Umatrix(0]):] = self.GetUserItemFeatures(u vec) 


#calc svd 

svd = TruncatedSVD(n components-K, random state=4) 
Rk  svd.fit transform(Umatrix mfeats) 

R tmp = means*svd.inverse transform(R k) 
self.matrix = np.round(R tmp[:,:5elf.nmovies],0) 


GetUserlItemFeatures(self,u vec): 
mean u = u vec[u vec»0].mean() 
diff u = u vec-mean u 
features u = np.zeros(self.nfeatures).astype(float) 
cnts = np.zeros(self.nfeatures) 
for m in xrange(self.nmovies): 
if u vec[m]»0:fu has rated m 
features u += self.Movies[m]*(diff u[m])4self.Movies[m]*u vec[m] 
cnts += self.Movies[m] 
faverage: 
for m in xrange(self.nfeatures): 
if cnts[m]»0: 
features u[m] = features u[m]/float(cnts[m]) 
return features u 











SVD 方法 ， 每 位 用 户 所 打 的 分 数 减 去 了 该 用 户 的 平均 分 。 


去 了 他 打 的 平均 分 。 


9.8 ”推荐 系统 评估 




















每 位 用 户 的 类 型 偏好 分 数 减 


我 们 讨论 了 与 当今 商业 应 用 联系 最 为 密切 的 方法 ,现在 我 们 再 来 学 习 推 荐 系统 的 评估 方 





一 < 



















































































去 。 评 估 可 在 线 下 (只 用 效用 和 矩阵 的 数据 ) 或 线 上 (用 效用 和 矩阵 和 网 站 用 户 实时 产生 的 数据 ) 


进行 。 第 7 章 将 结合 线 上 电影 推荐 系统 讲解 线 上 评估 方法 。 这 一 节 ， 我 们 采用 评估 推荐 系统 


常用 的 两 种 线 下 检验 方法 ， 来 评估 这 些 推 荐 方法 的 怕 


Square Error, 


为 了 保证 结果 

















E 能 :分数 的 均 方 根 误 差 (Root Mean 


RMSE) 和 排序 的 正确 率 。 所 有 评估 方法 ， 均 采用 k- 折 交叉 检验 (第 3 章 )， 

















的 客观 性 ， 我 们 采用 5 折 交 叉 检 验 。 用 以 下 函数 将 效用 矩阵 分 为 5 Tr: 




















In [42]: def cross validation(df,k): 


val num = int(len(df)/float(k)) 
print val num 
df trains - [] 
df vals = [] 
for i in xrange(k): 
start val = (k-i-1)*val num 
end val = start val:val num 
df trains.append(pd.concat([df[:start val],df[end val:]])) 
df vals.append(df[start val:end val]) 


return df trains,df vals 
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DataFrame 对 象 df 存储 效用 和 矩阵 ,为 折 数 。 验 证 集中 每 位 用 户 的 分 数 癌 量 u_vec, 我 


























们 随机 隐藏 了 半数 电影 的 分 数 ， 以 便 预 测 它们 的 实际 值 。 





























In [23]: import random 
def HideRandomRatings(u vec, ratipvals-0.5): 
u test = np.zeros(len(u vec)) 
u vals = np.zeros(len(u vec)) 
ent = 0 
nratings = len(u vec[(u vec»0]) 
for i in xrange(len(u vec)): 
if u vec[i]»0: 
if bool(random.getrandbits(1)) or cnt»-int(nratings*ratiovals): 
u test[i]-u vec[i] 
else:f£random choice to hide the rating: 
cnt +=1 
u vals[i]-u vec[i] 
return u test,u vals 


























u vals 存储 预测 值 , u_test 存储 用 于 测试 算法 的 实际 分 数 。 比 较 不 同 算法 不 同 度量 方法 之 前 ， 


我 们 加 载 效 用 矩阵、 电影 内 容 甜 阵 到 DataFrame 对 象 ， 将 数据 分 成 5 折 ， 使 用 交叉 检验 方法 




















In [24]: #load data 
df = pd.read csv('data/utilitymatrix.csv') 
print df.head(4) 
df movies = pd.read csv('data/movies content.csv') 
movies - df movies.values[:,1:] 
print 'check:::',len(df.colhmns[1:]), '--',len(df movies) 
movieslist = list(df.columns[1:]) 
fk-fold cv 5 folds 
nfolds - 5 
df trains,df vals = cross validation(df,nfolds) 

















o 


验证 集 包 含 在 df vals H, 我 们 需要 用 本 节 的 HideRandomRatings 函数 隐藏 用 户 实 际 打 


的 分 数 。 





In [31]: nmovies = len(df vals[0].values[:,1:][0]) 
CY 
tests vecs folds - [] 
for i in xrange(nfolds): 
u vecs - df vals[i].values[:,1:] 
vtests - np.empty((0,nmovies),float) 
vvals - np.empty((0,nmovies),float) 
for u vec in u vecs: 
u test,u vals - HideRandomRatings(u vec) 
vvals = np.vstack([vvals,u vals]) 
vtests - np.vstack([vtests,u test]) 
vals vecs folds.append(vvals) 
tests vecs folds.append(vtests) 














矩阵 movies. movieslist 列表 以 及 DataFrame 对 象 df trains. vals vecs folds 和 


tests vecs folds 都 已 准备 就 绪 ， 接 下 来 我 们 训练 和 验证 前 面 几 节 讨 论 的 各 种 方法 。 我 们 首 








先 评估 它们 的 均 方 根 误差 (RMSE )。 
5.8.1 HIJR (RMSE ) 评估 





SE 











均 方 根 误差 检验 方法 只 适用 于 CF 和 线性 回归 CBF， 因 为 只 有 这 些 算 法 才 生 成 预测 分 数 。 
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给 定 验 证 集 u_vals 的 每 个 分 数 方 ， 月 
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每 种 方法 计算 得 到 预测 分 数 方 ， 相 应 的 均 方 根 误差 为 : 


其 中 , Nu Ju vals 同 量 中 打分 数据 的 数量 。 公式 中 的 平方 因子 严厉 惩罚 误差 较 大 的 情况 ， 





少数 分 数 误 差 较 大 ， 而 不 像 平 均 绝对 误差 MAP= 





基于 记忆 的 CF、 基 于 | 






































因此 RMSE〔 最 佳 分 数 ) 较 低 的 方法 ， 它 们 的 误差 较 小 ， 且 分 散 于 对 所 有 分 数 的 预测 ， 而 不 是 





Th 


的 那样 。 





j 户 和 商品 的 协同 过 滤 方 法 ， 它 们 的 RMSE 计算 方法 见 下 面 代码 : 





In [43]: 


def SE(u preds,u vals): 
nratings = len(u vals) 
se = 0. 
ent = 0 
for i in xrange(nratings): 
if u vals[i]»0: 
se *- (u vals[i]-u preds[i])*(u vals[i]-u preds[i]) 
cnt += 1| 
return se,cnt 








In [40]: 





err itembased - 0. 
cnt itembased = 0 
err userbased - 0. 
cnt userbased - 0 
err slopeone * 0. 
cnt slopeone - 0 
err cbfcf - 0. 
cnt cbfcf = 0 
for i in xrange(nfolds): 
Umatrix = df trains[i].values[:,1:] 
cfitembased = CF itembased(Umatrix) 
cfslopeone = SlopeOne(Umatrix) 
Cbfcf = Hybrid cbf cf(movies,movieslist,Umatrix) 
print 'fold:',i*1 
vec vals = vals vecs folds[i] 
vec tests = tests vecs folds[i] 
for j in xrange(len(vec vals)): 
u vals = vec vals[j] 
u test - vec tests[j] 
#cbfcf 
u_preds = cbfcf.CalcRatings(u_test,5) 
erc = SE(u preds,u vals) 
err cbfcf +=e 
cnt cbfcf +=c 
fcf userbased 
u preds - CF userbased(u test,5,Umatrix) 
e,c = SE(u preds,u vals) 
err userbased *-e 
cnt userbased +=c 
fcf itembased 
u preds * cfitembased.CalcRatings(u test,5) 
e,c = SE(u preds,u vals) 
err itembased +=e 
cnt itembased +=c 
Xslope one 
u preds - cfslopeone.CalcRatings(u test,5) 
e,c = SE(u preds,u vals) 
err slopeone +=e 
cnt slopeone *-c 
rmse userbased = np.sgrt(err userbased/float(cnt userbased)) 
rmse itembased = np.sqgrt(err itembased/float(cnt itembased)) 
rmse slopeone - np.sqrt(err slopeone/float(cnt slopeone)) 
print 'user userbased rmse:',rmse userbased,'--',cnt userbased 
print 'user itembased rmse:',rmse itembased,'--',cnt itembased 
print 'slope one rmse:',rmse slopeone,'--',cnt slopeone 


rmse cbfcf - np.sqrt(err cbfcf/float(cnt cbfcf)) 
print 'cbfcf rmse:',rmse cbfcf,'---',cnt cbfcf 
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对 于 每 种 方法 ， 调 月 



































法 的 误差 见 表 5.2。 


表 5.2 
方法 


H SE 函数 ， 计 算 每 一 折 的 误差 ， 然 后 得 到 所 有 折 的 误差 。 
基于 商品 的 CF 和 slope one 算法 使 用 5 个 近邻 ， 基 于 用 户 的 CF fij 


RMSE 预测 分 数 的 数量 


20 个 近邻 ， 各 方 





基于 用 户 的 CF 1.01 39972 





基于 商品 的 CF 1.03 39972 





Slope one 


1.08 39972 








基于 用 户 的 CF-CBF 1.01 39972 














以 上 方法 ， 与 RMSE 类 似 ， 但 最 佳 方法 是 基于 商品 的 协同 过 滤 。 


对 于 基于 模型 的 方法 ， 我 们 不 再 隐藏 验证 集 分 数 ， 而 是 将 u_test 整合 到 效用 























训练 ， 然 后 用 下 面 代 码 计算 RMSE: 























In [63]: 





err svd - 0. 
cnt svd = 0 
err svd em = 0. 
cnt svd em = 0 
err als = 0. 
cnt als = 0 
err cbfreg = 0. 
cnt cbfreg = 0 
for i in xrange(nfolds): 
Umatrix = df trains[i].values[:,1:] 
print 'fold:',i*1 
teststartindx = len(Umatrix) 
vals vecs = vals vecs folds[i] 
tests vecs = tests vecs folds[i] 
for k in xrange(len(vals vecs)): 
u vals = vals vecs[X] 
u test = tests vecs[k] 
fadd test vector to utility matrix 
Umatrix = np.vstack([Umatrix,u test]) 


4svd em matrix = Hybrid svd(movies,movieslist,Umatrix,20, 'useraverage').matrixéSVD EM(Umatrix,20, 'useraverage',l) 


svd matrix = SVD(Umatrix,20,'itemaverage') 
cbf reg * CBF regression(movies,Umatrix) 
$als umatrix = SGD(Umatrix,20,50)9ALS(Umatrix,20,50)9NMF alg(Umatrix,20, 'itemaverage',0.001) 
fevaluate errors 
for indx in xrange(len(vals vecs)): 
fe,c = SE(als umatrix[teststartindx*indx],vals vecs[indx]) 
err als += e 
fcnt als += C 
u preds = cbf reg.CalcRatings(Umatrix[teststartindx*indx]) 
e,c = SE(u preds,vals vecs[indx]) 
err cbfrog +=e 
cnt cbfreg *-c 


e,c = SE(svd matrix[teststartindx*indx],vals vecs[indx]) 
err svd *-e 

cnt svd *-c 

fe,c = SE(svd em matrix[teststartíindx*indx],vals vecs[indx]) 
ferr svd em *-e 

fcnt svd em *-c 


if cnt svde-0: cnt svdel 
if cnt svd eme-0: cnt svd emel 
if cnt als--0: cnt als-1 
if cnt cbfreg--0: cnt cbfreg*l 


rmse als * np.sqrt(err als/float(cnt als)) 
rmse svd = np.sqrt(err svd/float(cnt svd)) 
rmse svd em = np.sqrt(err svd em/float(cnt svd em)) 
rmse cbfreg * np.sqrt(err cbfreg/float(cnt cbfreg)) 


print 'svd rmse:',rmse svd,'--',cnt svd 

print 'svd em rmsd:',rmse svd em,'--',cnt svd em 
#print 'als rmse:',rmse als,'--',cnt als 

print 'cbfreg rmse:',rmse cbfreg,'--',cnt cbfreg 











[Itt 
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上 述 代码 只 计算 了 CBF 回归 和 SVD 方法 的 RMSE， 读 者 可 以 利 









































这 段 代码 计算 其 他 


算法 的 误差 , 因为 所 需要 的 大 多 数 代码 都 以 注释 的 形式 添加 到 上 述 代码 中 (最 大 期 望 SVD, 
SGD, ALS 和 NMF)。 结 果 见 表 5.3 CK 为 特征 空间 的 维度 ): 



































































































































表 5.3 
方法 RMSE 预测 分 数 的 数量 
CBF 线性 回归 (a= 0.01、1=0.0001、50 次 和 迭代) 1.09 39972 
SGD (K-20. 50 次 迭代 、a 0.00001. 170.001) 1.35 39972 
ALS (K-20. 50 次 迭代 、1=0.001) 2.58 39972 
SVD (插值 = 用 户 平均 分 数 、 玉 =20) 1.02 39972 
SVD EM 插值 = 商品 平均 分 数 、30 次 迭代 、 天 =20) 1.03 39972 
混合 SVD 插值 = 用 户 平均 分 数 、K =20) 1.01 39972 
NMF (K =20、 插 值 = 用 户 平均 分 数 ) 0.97 39972 



































不 出 所 料 ，ALS 和 SGD 表现 最 差 ， 但 是 用 它们 节 




















其 他 方法 结果 相差 不 大 。 然 而 ， 需 注意 的 是 ， 混 合 
算法 只 好 一 点 点 。 还 要 注意 的 是 , 我 们 随机 选择 要 预测 的 


5.8.2 ”分 类 效果 的 度量 方法 


T 
业 环 境 是 不 会 使 用 的 。 
JEK, AEKA fii 
数 大 于 3 的 电影 。 
表 ， 若 不 返回 则 取 50 个 最 高 的 预测 分 数 )。 

































































( 见 第 






























































方法 比 起 单独 的 SVD、 基 于 





解 推荐 系统 有 助 于 理解 ， 
对 它们 予以 讨论 (还 有 一 个 原因 ， 它们 的 实现 没有 sklear 库 所 实现 的 几 









































JHI CF 


影 , 因此 多 次 比较 , 其 结果 可 能 不 同 。 





42: RMSE 不 能 实际 表明 各 方法 性 能 的 好 坏 ， 只 是 一 种 学 术 评价 方法 ， 


3 章 ) 评估 推荐 商品 的 相关 性 。 
我 们 计算 每 种 算法 返回 的 前 50 部 电影 的 这 3 个 值 (如 果 算 法 返 
这 些 指标 的 计算 方式 如 下 : 








预测 结 





在 实际 商 
网 站 的 目标 是 向 用 户 推荐 相关 内 容 ， 而 不 管用 户 的 实际 打分 


。 我 们 




















dislike = [i for i in 


ent = EEE ndxs_like)+len n s dislike) 





r no test vecto 
i 

fconsider only the first slot of recs 

indxs rec - vec recs[ hot 

tp = len(set(indx 

fp * len(set(i m 


2o ntersection(set(indxs like))) 
tersection(set(indxs dislike))) 


sion = float(tp)/(tp*fp) 


if tp*fn»0: 
recall = float(tp)/(tp*fn) 

fl- 0. 

if recall*precision >0: 
£1 = 2.*precision*recall/(precision*recall) 





return np.array([precision,recall,f1]),cnt 


In (33]: def GC z cationMetr paires vals,vec recs,likethreshold-3,shortlist-50,ratingsval-False,vec test-None): 


als ndxs 
inima. like - i. r xrangellen(vec ， vals)) if vec vals[i]»lik Toig, 
i ange(len(vec vals)) if vec_vals[i]<=likethreshold and vec_vals[i]>0] 


rt 
for i in xrange(len(vec recs)) if vec recs[i]»likethreshold and vec test[i]«1][:shortlist] 


in! 
fn = er s like) (set(indxs rec). rer rsection(set(indxs like)))) 
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上 述 代码 ,布尔 型 变量 ratingsval 表示 推荐 方法 返回 的 是 分 数 还 是 电影 列表 。 我 们 用 函 
数 ClassificationMetrics 像 计算 所 有 方法 的 RMSE 那样 计算 各 指标 ,计算 各 指标 的 代码 没有 
列 在 这 里 (你 可 以 练习 自己 编写 )。 表 5.4 总 结 了 各 种 方法 的 3 个 指标 neighs 为 近邻 数 、 
KK 为 特征 空间 的 维度 ): 









































































































































































































































表 5.4 
方法 准确 率 召回 率 |f 预测 分 数 的 数量 
基于 用 户 的 CF ( neighs =20) 0.6 0.18 0.26 39786 
基于 用 户 的 CBFCF ( neighs =20) 0.6 0.18 0.26 39786 
混合 SVD (KK =20、 插 值 = 用 户 平均 分 数 ) 0.54 0.12 0.18 39786 
基于 商品 的 CF (neighs =5) 0.57 0.15 0.22 39786 
Slope one ( neighs —5) 0.57 0.17 0.24 39,786 
SVD EM ( K 220. 30 次 迭代 、 揪 值 = 用 户 平均 分 数 ) | 0.58 0.16 0.24 39786 
SVD (KK =20、 插 值 = 商品 平均 分 数 ) 0.53 0.12 0.18 39786 
CBF 回归 (a= 0.01、1=0.0001、50 次 迭代 ) 0.54 0.13 0.2 39786 
SGD (K=20、a=0.00001、1=0.001) 0.52 0.12 0.18 39786 
ALS (K=20、4=0.001、50 次 迭代 ) 0.57 0.15 0.23 39,786 
CBF 平均 0.56 0.12 0.19 39786 
LLR 0.63 0.3 0.39 39786 
NMF (KK=20、4 =0.001、 插 值 方法 为 ssss ) 0.53 0.13 0.19 39786 
关联 规则 0.68 0.31 0.4 39786 















































由 表 5.4 可 见 ， 最 佳 推荐 方法 是 关联 规则 ，LLR、 基 于 用 户 的 混合 CBFCF、 基 于 用 户 的 
CF 准确 率 较 高 。 再 次 提醒 ， 由 于 每 次 是 随机 选择 电影 进行 预测 ， 预 测 结果 也 会 有 所 不 同 。 






















































































5.9 小 结 





























本 章 讨论 了 最 常用 的 推荐 系统 方法 : 协同 过 滤 、 基 于 内 容 的 过 滤 和 两 种 简单 的 混合 
法 。 我 们 查询 相关 文献 时 ， 可 能 会 遇 到 模 态 推荐 系统 (modal recommendation)， 它 是 将 多 
种 不 同 的 数据 《用 户 性 别 、 人 口 统计 学 特征 、 观 点 、 地 理 位 置 、 设 备 等) 整合 到 算法 之 中 。 
这 些 更 为 高 级 的 方法 需要 用 多 种 不 同 的 数据 。 

在 第 7 章 中 ， 我 们 将 用 本 章 讨论 的 方法 实现 一 个 Web 推荐 系统 。 在 这 之 前 ， 我 们 先 用 第 6 
章 一 章 的 篇 幅 来 介绍 搭建 Web 应 用 所 使 用 的 Django 框架 。 
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第 6 章 


开始 Django 





之 旅 























开源 Web 框架 Django 简单 易 用 , 稳定 性 和 灵活 性 高 ,因此 被 广泛 应 用 于 


充分 利用 了 Python 拥有 丰富 的 库 这 一 优势 )。 



































HM XR CE 


我 们 可 以 用 Web 应 用 来 管理 和 分 析 数 据 , 开发 Web 应 用 要 用 到 Web 框架 的 相关 功能 ， 















































https://docs.djangoproject.com 或 其 他 资料 。 我 们 ; 












































本 章 重 点 讲解 Django 框架 的 这 些 功能 。 此 外 ， 我 们 还 会 解释 搭建 完整 的 Web 应 用 包括 哪 
些 主要 环节 ， 但 更 多 细节 和 信息 限于 篇 幅 ， 不 再 痪 述 ， 请 自行 查 | 


阅 官方 文档 





各 介绍 Web 服务 器 应 用 的 主要 概念 〈 配 置 、 


模型 和 命令 )、HTML 和 shell 的 基础 知识 、REST 框架 接口 的 主要 概念 及 在 Django 中 它们 
是 如 何 实现 的 (serializer、REST 调用 和 swagger)。 我 们 会 简要 介绍 如 何 用 HTTP GET. POST 


方法 在 因特网 上 传输 数据 



























































6.1 HTTP 一 一 GET 和 POST 方法 的 基础 


， 还 会 讲解 Django 的 安装 方法 以 及 如 何 用 它 搭 建 Web 服务 器 。 


超 文 本 传输 协议 (Hypertext Transfer Protocol, HTTP) 实现 了 客户 端 (比如 Web 浏览 器 ) 





和 服务 器 〈 我 们 的 应 用 ) 之 间 的 交互 。 给 定 网 页 的 URL 地 址 ， 客 户 端 使 月 






































H GET 方法 向 服务 


器 查询 数据 ， 查 询 词 在 URL 中 是 以 参数 形式 指定 的 。 若 用 curl 命令 来 解释 ， 如 下 所 示 : 

















curl -X GET url path?namel-valuel&name2-value2 











URL? 号 符号 后 面 的 键 值 对 ， 指 定 的 是 要 查询 的 数据 ， 多 项 数据 之 间 用 久 符 号 分 隔 。 














客户 端 将 数据 传送 给 


body 部 分 : 


























服务 器 的 方法 叫 作 POST. POST 方法 将 被 传输 的 数 


curl -X POST -d Gdatafile.txt url path 
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居 放 到 请 求 的 
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现在 ， 我 们 开始 讨论 如 何 用 Django 搭建 Web 服务 器 和 Web 应 用 。 
6.1.1 Django 的 安装 和 服务 器 的 搭建 


在 终端 输入 以 下 命令 ， 安 装 Django 库 : 











sudo pip instal django 




















该 命令 应 该 安装 的 是 1.7 或 以 上 版 本 的 Django( 作 者 用 的 是 1.7 版 本 )。 新 建 Web 应 用 ， 
请 用 以 下 命令 : 









































django-admin startproject test server 


上 述 命令 生成 test app 新 文件 夹 ， 该 文件 夹 的 文件 目录 树 如 下 : 


-一 一 test server 





上 一 一 manage .Py 

-一 一 test server 
L— init .py 
|— settings.py 
Fo urls.py 


L—— wsgi.py 











Tr 


test server 文件 夹 中 有 manage.py 文件 ， 开 发 人 员 可 用 它 执 行 多 种 操作 。 该 文 从 
还 有 一 个 同名 的 子 文件 夹 test_server， 它 里 面 有 以 下 文件 : 


e settings.py: 存储 服务 器 的 所 有 参数 设置 ; 





KF, 


























e urls.py: 汇总 Web 应 用 的 所 有 URL 路 径 及 对 应 的 函数 名 ， 这 些 函 数位 于 
文件 中 ， 其 作用 是 演 染 模板 ， 生 成 URL 所 指向 的 网 页 


e wsgi.py: 与 Web 应 用 进行 服务 器 通信 的 模块 ; 
。 init py: 将 每 个 文件 夹 定义 为 一 个 包 ， 以 便 从 包 内 导入 模块 。 


输入 以 下 命令 ， 在 我 们 本 地 的 机 器 上 ， 访 问 http://127.0.0.1:8080/， 可 看 到 Django 的 
欢迎 页 CWelcome to Django): ^ 





views.py 




































































python manage.py runserver 8080 








CD 应 为 test server. 译 者 注 
© 用 到 manage.py 的 命令 ， 需 到 manage.py 所 在 的 目录 下 执行 



























































， 请 到 命令 行 工 具 中 切换 到 该 目录 。 译 者 注 
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kh, 8080 为 服务 器 开启 的 端口 (如 不 指定 ， 默 认 开 启 8000 端口 )。 现 在 服务 器 已 经 
就 绕 ， 我 们 可 以 用 如 下 命令 创建 Web 应 用 ， 想 创建 多 少 就 能 创建 多 少 。 











N 











python manage.py startapp nameapp 











上 述 命令 在 test app 文件 夹 的 根 目录 下 ， 新 建 一 个 文件 夹 nameapp: 





上 一 一 manage.Py 

上 一 一 nameapP 

| L— init .py 

| 上 一 一 admin.py 

| 上 一 一 migrations 

| L— init .py 

| — models.py 

| | 一 一 tests .PY 

| L—— views.py 

上 -一 一 test server 
L— init .py 
| settings.py 
上 一 一 urls.Py 


L—— wsgi.py 














我 们 先 解释 最 重要 的 参数 配置 ， 之 后 再 讨论 该 文件 夹 中 的 内 容 及 其 功能 。 请 注意 ， 
Django 1.9 版 本 ，nameapp 文件 夹 包含 apps.py 文件 ， 它 改 用 apps.py 文件 配置 nameapp 应 
]. ABER settings.py 文件 。 


6.1.2 配置 
settings.py 文件 存储 Django 服务 器 运行 所 需 的 全 部 配置 。 需 要 设置 的 、 最 重要 的 参数 


如 下 所 示 。 
(1) 除了 默认 安装 的 、 网 站 管理 所 需 的 一 般 性 Django 应 用 , 我 们 还 要 安装 REST 框架 : 


































































































INSTALLED APPS = ( 


'rest framework', 
'rest framework swagger', 
'nameapp', 


) 








CD 应 为 test server. 译 者 注 
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安装 了 REST 框架 , Django 应 用 (例子 中 的 nameapp) 就 可 以 用 REST API 进行 通信 , REST 
Framework Swagger 是 一 种 管理 REST API 的 Web 交互 接口 。 后 续 章节 会 讨论 这 些 功 能 。 还 要 
注意 ， 我 们 创建 的 每 一 种 应 用 (例子 中 的 nameapp) 都 要 添加 到 INSTALLED APPS 字段 中 。 


(2) Diango 支持 用 多 种 后 端 数 据 库 (MySQL、Oracle 和 PostgreSQL 等 ) 存储 数据 。 
该 例 使 用 SQLite3 (默认 选项 ): 













































































DATABASES = { 














'default': { 
'ENGINE': 'django.db.backends.sqlite3', 
'NAME': 'mydatabase', 








} 
} 


网 页 用 HTML 编码 实现 ， 因 此 需要 专门 准备 一 个 文件 夹 ， 存 储 HTML 代码 。 我 们 习 
惯用 templates 文件 夹 存储 网 页 布局 文件 : 














TEMPLATE DIRS = ( 
os.path.join(BASE DIR, 'templates'), 














) 





























(3) 修饰 网 站 的 CSS 样式 表 和 JavaScript 代码 通常 单独 存储 到 static 文件 夹 , 将 它 放 到 
test server 文件 夹 中 。 要 获取 该 文件 夹 下 的 文件 ， 需 要 进行 如 下 配置 : 






























































MEDIA ROOT = os.path.join(BASE DIR, 'static') 

STATIC URL = '/static/' 

MEDIA URL = '' 

STATIC ROOT = '' 

STATICFILES DIRS = ( os.path.join(BASE DIR, "static"), ) 





(4) 网 站 的 URL 设置 ， 需 做 以 下 配置 ，URL 将 从 该 文件 中 获取 【该 例 中 的 test | 
server/urls.py 文件 ): 








ROOT URLCONF = 'test server.urls' 








(5) 我 们 可 以 新 建 一 文件 ， 存 储 为 解决 bug 而 输出 的 语句 ， 放 到 这 个 文件 中 。 我 们 使 
用 logging 库 ， 配 置 方 式 如 下 : 








LOGGING = { 
'version': 1, 


'disable existing loggers': True, 
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'formatters': { 
'standard': { 
'format': '$(asctime)s $(levelname)s $(name)s 
$ (message)s' 


} ， 





), 
'handlers': { 
'default': { 
'level':'DEBUG', 





'class':'logging.handlers.RotatingFileHandler', 
'filename': 'test server.log', 

'maxBytes': 1024*1024*5, 4 5 MB 

'backupCount': 5, 





'formatter':'standard', 
), 
), 
'loggers': { 
"id 
'handlers': ['default'], 
'level': 'DEBUG', 


'propagate': True 
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做 好 上 述 配 置 ， 我 们 用 logging 库 定 义 的 所 有 输出 语句 ， 将 存储 到 test server.log 文件 














(例如 ，logging.debug(write something’) )。 
































至 此 ，settings.py 里 所 有 重要 的 项 , 均 已 配置 完毕 。 接 下 来 , 我 们 可 以 集中 精力 开发 一 























个 简单 的 邮件 地 址 敌 应 用 。 按 照 前 面 讲 的 方法 ， 新 建 一 个 应 用 : 








python manage.py startapp addresesapp 





























CH 





接着 ， 在 服务 器 (addressapp) 文件 夹 根 目录 下 的 test server 文件 夹 中 ， 新 建 页 面 模板 








文件 夹 templates 和 静态 内 容 文 件 夹 static: 
上 一 addresesapp 

| L— init .py 

| 一 一 admin.py 

| 上 一 一 migrations 

| 

| 


























— models.py 
上 Co tests.py 


L—— views.py 
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上 一 manage.py 

上 -一 一 test server 
L— init .py 
L— init .pyc 
|— settings.py 
L— settings.pyc 


上 一 一 static 
LI—— templates 
LI—— urils.py 


LL-— 


wsgi.py 








注意 ， 在 settings.py 文件 INSTALLED. APPS 一 项 下 增加 addressesapp， 方 法 跟 之 前 添 
加 nameapp 相同 。 下 一 节 ， 我 们 讲 怎么 实现 地 址 夭 的 主要 功能 。 所 有 代码 均 已 放 到 作者 的 
GitHub 仓库 chapter 6 文件 夹 (nhttps://github.com/ai2010/machine learning for the web/tree/ 


master/chapter 6). 


6.2 











编写 应 用 一 一 Django 最 重要 的 功能 





创建 存储 邮件 地 址 的 Web 应用， 我们 不 仅 要 建 数据 表 存 储 数据 ， 还 要 编写 网 页 ， 支 持 
































户 新 增 、 删 除 和 查看 地 址 短 。 我 们 甚至 还 想 将 地 址 短 转 换 为 电子 表格 或 通过 因特网 将 数 











据 发 送 给 其 他 应 用 。 所 有 这 些 操作 ，Django 均 提 供 了 相应 的 功能 (model. view. admin 和 
API REST 框架 )。 我 们 先 来 讨论 数据 的 存储 方式 。 


6.2.1 


创建 电子 邮件 地 址 籍 ， 我 们 需要 将 每 位 联系 人 的 名 字 和 邮件 地 址 存储 到 数据 表 中 。 在 








model 











Django H 


FP， 数据 表 叫 作 model， 它 是 在 models.py 中 定义 的 : 





from django.db import models 
from django.utils.translation import ugettext lazy as _ 


class Person (models .Model) : 


name = models.CharField(_('Name'), max_length=255, unique=True) 
mail = models.EmailField(max length-255, blank-True) 
#display name on admin panel 
def | unicode (self): 
return self.name 








在 Django 中 ,数据 表 的 列 对 应 model 的 字段 , model 的 字段 支持 多 种 数据 类 型 : 整 型 、 
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字符 型 等 Django 自动 为 每 个 新 添加 的 对 象 赋予 一 个 自 增 的 ID 字段 。 上 面 代 码 , 定义 name 
字段 时 用 到 的 unique 选项 ， 表 示 该 model 不 允许 联系 人 名 称 重复 ，blank 表示 是 否 允 许 该 
字段 为 空 ， 即 用 户 是 否 可 以 不 填 该 项 。_unicode “函数 可 有 可 无 ， 它 的 作用 是 将 每 个 联系 
人 对 象 表示 为 字符 串 形 式 〈 我 们 用 联系 人 名 称 表 示 一 个 对 象 )。 


创建 model 之 后 ， 我 们 需要 在 SQLite 数据 库 将 model 表示 的 数据 结构 建立 起 来 : 
























































python manage.py makemigrations 
python manage.py migrate 





makemigrations 将 模型 的 变动 添加 到 迁移 文件 Caddressesapp 文件 夹 下 的 migrations XX 
IFE), migrate 将 变动 应 用 于 数据 库 模 式 (database schema )。 我 们 这 个 例子 ， 同 一 个 网 站 
多 个 应 用 , 因此 , 实现 迁移 的 命令 应 该 加 上 应 用 的 名 称 : python manage.py makemigrations 


appname'。 


6.22 HTML 网 页 背后 的 URL 和 view 





































































































我 们 已 知道 怎么 存储 数据 ， 我 们 还 需要 用 网 页 记录 联系 方式 ， 并 在 男 一 个 页 面 展 示 所 
联系 方式 。 下 一 节 ， 我 们 简要 介绍 HTML 页 面 的 主要 特性 。 
































HTML 页 面 





本 节 讲 解 的 所 有 代码 都 位 于 test server 文件 夹 下 的 模板 文件 夹 〈templates) F. 
地 址 敌 应 用 的 主页 ， 允 许 用 户 记 录 一 条 新 的 联系 方式 ， 主 页 见 图 6.1: 


Resources Home 


























图 6.1 


如 图 6.1 所 示 ， 网 页 的 主体 部 分 ， 有 两 个 等 待 用 户 输入 的 输入 框 : 联系 人 名 称 和 邮件 地 址 。 
单 击 Add 按钮 ， 这 两 项 内 容 将 被 添加 到 数据 库 。 该 页 面 的 HIML 模板 文件 home.html 如 下 所 示 : 
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9- 


$ 


( 


($ block content 5%} 
<form actionz"" 

($ 

<h2 align 

<p> «br»«br»«/ 

<p align 


me 
csrf token 


Cen 
placeholder- 
autofocus /» 


Cen 


<p align = 
placeholder= 


autofocus /> 





<p align Cen 


extends "addressesapp/base.html" 


3} 


Center>Add person to address boo 


9- 
o 


) 


thod-2"POST"» 


p» 
ter»«in 


" 


k «/h2» 


put type-"search" class-"span3" 


" 


id="search" 





"person 
</p> 
ter><in 


—" 


"email" name- 
</p> 


ter><bu 





name-"nam 


email" 


put type-"search" class-"span3" 





id2"search" 


tton type-"submit" class-"btn 


btn-primary btn-large pull-center"»Add 


&raquo;«/but 
«/form» 
($ endblock content 


3} 


我 们 用 POST 方法 ,将 两 个 段落 





日 





ton></p> 


域 (<p> 








-— 














] 件 








是 由 Add 按钮 (&raquo: 在 文本 后 面 





添加 小 箭头 图 




















E 


to address book ( 














新 增 联 系 人 到 地 址 短 ) 用 第 











二 级 标题 泻 染 (<h2> 











csrf token 标签 ， 可 启用 跨 站 请 求 伪 














造 攻击 保护 〈 更 多 


securitytips/web-developers.html#CSRF )。 


网 页 的 样式 (CSS 和 JavaScript 文 伯 
Book 和 Find 按钮 ) 是 在 base.html 文 伯 








如 下 表单 实现 : 





<form class="navbar-search pull-left" action="{% url 





$)" method="GET"> 


{% 8) 


csrf token 


«div style-"overflow: 
<input type="text" name-"term" style="width: 


<input type=" 
size="30" 
</div> 
</form> 


S 


























表单 中 
交 给 urls.py 文件 里 定义 








URL 











的 get contacts 函数 处 








hidden; 


=" 


submit" 
tyle="float: 


] div 标签 定义 文本 域 ，Find 按钮 激活 GET 方法 ， 请 求 一 个 URL, 


padding-right: 


name-"searc 
aaae i AE 


</p>) 收集 到 的 数据 提交 到 服务 器 ， 提 交 





标 ) 激 活 的 。 网 页 的 标题 Add person 
</h2>)。 注 意 添加 


内 容 请 见 https:/www.squarefree.com/ 


H 以 及 页 面 底部 、 头 部 导航 栏 (Home、Emails 
F CJL templates XFX) 中 定义 的 。Find 功能 





'get contacts' 


. 5em; "> 
70$;" /» 


h" value-s"Find" 





服务 器 将 




















另 一 个 网 页 是 展示 地 址 筹 的 ， 如 图 6.2 所 示 。 


( 见 下 节 )。 
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| 


Email address book 
[ABCDEFGHIJKLMNOPQRSTUVWXYZ |Index] 


name: ss email: doloto 
name: Andrea Isoni email: ccc delete 
name: www 1 email: oq celete 


name: addd-ww email: www delete 

















图 6.2 








$ extends "addressesapp/base.html" %} 

$ block content $£] 

<h2 align = Center»Email address book</n2> 
<P align-Center»?[ 

$ for letter in alphabet %} 

which is given by the book.html file: 


9. 


$ extends "addressesapp/base.html" %} 





$ block content $2] 
<h2 align = Center»Email address book</n2> 
<P align-Center»[ 


$ for letter in alphabet %} 


«a href-"($ url 'addressesbook' $j?letter-([(letter)]" > {{letter}} «/ 
a» 

% endfor 5%} 

<a href="addressesapp/book.html"> Index </a> ] </P> 


<section id="gridSystem"> 








% for contact in contacts %}° 
<div class="row show-grid"> 

<p align = Center><strong> name: «/strong»(( contact.name }} 
<strong>email:</strong> {{ contact.mail ))&nbsp&nbsp&nbsp&nbsp 

«a class="right" href="{% url 'delete person' contact .name 

%}" > delete </a> 

</p> 
</div> 
{5 endfor 5%} 
</section> 


($ endblock content %} 








© 从 前 面 “whichis qivew” 到 该 行 应 删 书 ， 原 书 此 处 有 误 。 可 参考 作者 在 Github 上 给 出 的 代码 。 一 一 译 者 注 








异步 社区 会 员 TUM abba» £y Tic 4 Sd. com) zx 尊重 版 权 





154 


第 6 章 开始 Django 之 旅 








再 次 提醒 ， 上述 代码 用 base.html 泻 染 头 部 导航 栏 、 页 面 底部 和 样式 。 标 题 Email address 

















book 用 二 级 标题 泻 染 ， 随 后 for 循环 {% for letter in alphabet 961, W 26 个 英文 字母 ， 我 

















们 









































j 它 来 实现 只 显示 姓名 以 某 个 字母 开头 的 联系 人 信息 。 有 基体 实 现 方法 是 : 将 要 查询 的 字 




















母 {fletter}} 放 到 请 求 地 址 敌 的 URL 之 中 进行 查询 。 下 面 的 代码 ， 遍 历 联 系 人 列表 {% for 
contact in contacts %} ， 将 列表 泻 染 到 页 面 : 将 每 条 联系 人 信息 的 姓名 、 邮 件 地 址 和 按钮 放 


到 一 
件 的 





























| 





个 段落 标 记 中 ， 按 钮 的 作用 是 从 数据 库 删 除 联系 人 信息 的 。 我 们 接 下 来 讨论 网 页 各 事 
实现 〈 添 加 、 查 找 或 删除 联系 人 ， 展 示 地 址 德 )。 











6.2[3 URL 声明 和 view 


1E, 























我 们 现在 讲解 urls.py 和 views.py 这 两 个 文件 是 怎样 与 每 个 网 页 的 HTML 代码 一 道 工 
实现 我 们 想 要 的 功能 的 。 
由 前 面 内 容 可 知 地 址 夭 应 用 的 两 个 主要 网 页 home 和 address book 各 有 一 个 URL, TE 



































i 


























Django 中 这 两 个 URL 是 在 urls.py 文件 里 面 声明 的 : 


指定 
Zr 


符号 


from django.conf.urls import patterns, include, url 
from django.contrib import admin 
from addressesapp.api import AddressesList 


urlpatterns - patterns('', 
url(r'^docs/', include('rest framework swagger.urls')), 
url(r'^$','addressesapp.views.main'), 
url(r'^book/','addressesapp.views.addressesbook',name-'addressesbo 
ok'), 
url (r'^delete/(?P«name».*)/','addressesapp.views.delete person', 
name-'delete person'!), 
url(r'^book-search/','addressesapp.views.get contacts', name-'get 
contacts'), 
url(r'^addresses-list/', AddressesList.as view(), name-'addresseslist'), 
url(r'^notfound/','addressesapp.views.notfound' ,qname-'notfound'), 
url(r'^admin/', include (admin.site.urls)), 


) 











每 个 URL 都 是 用 正则 表达 式 指 定 的 〈URL 字符 串 前 要 加 一 个 r)， 因 此 主页 的 地 址 被 
为 http://127.0.0.1:8000/《 正 则 表达 式 以 表示 开始 的 ^ 符 号 开始 ， 后 面 紧 跟 表示 结束 的 $ 
)， 它 的 动作 (新 增 一 条 联系 人 信息 ) 由 views.py 文件 里 的 main 函数 实现 : 





























def main (request): 
context-(] 
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if request.method -- 'POST': 

post data - request.POST 

data = {} 

data['name'] = post data.get('name', None) 

data['email'] = post data.get('email', None) 

if data: 

return redirect('$s?$s' $ (reverse('addressesapp.views. 
main'), 
urllib.urlencode(('q': data]))) 

elif request.method -- 'GET': 


get data = request.GET 
data- get data.get('q',None) 
if not data: 
return render to response( 
'addressesapp/home.html', RequestContext(request, 
context)) 
data = literal eval(get data.get('q',None)) 
print data 
if not data['name'] and not data['email']: 
return render to response( 
'addressesapp/home.html', RequestContext(request, 
context)) 


#add person to emails address book or update 

if Person.objects.filter(namezdata['name']).exists(): 
p = Person.objects.get(namezdata['name']) 
p.mailz-zdata['email'] 
p.save() 

else: 

= Person() 

.name-data['name'] 

.mail-data['email'] 

.save() 


由 只 归口 


#restart page 
return render to response( 
'addressesapp/home.html', RequestContext(request, 
context)) 








每 当 用 户 提交 、 保 存 一 条 新 的 联系 信息 ，POST 方法 将 请 求 转交 给 GET 方法 处 理 。 如 
果 姓 名 和 邮件 信息 齐全 ， 则 创建 一 个 Person 对 象 ， 如 果 该 对 象 已 存在 ， 则 进行 更 新 。 注 意 
名 字 相 同 , 大 小 写 不 同 , 该 方法 (Person.objects.get() ) 将 其 看 作 是 不 同 的 名 字 , 因此 Andrea. 




























































































A 





异步 社区 会 员 TUM abba» £y Tic 4 81d. com) 专 享 尊重 版 权 


iml 





156 第 6 章 开始 Django 之 旅 





ANDREA 和 andrea 将 被 当 作 三 条 不 同 的 联系 人 信息 。 如 想 解 决 这 个 问题 , 读者 可 用 lower 
函数 将 name 字段 的 值 转换 为 小 写 ， 这 样 三 个 andrea 表达 式 指向 同一 个 andrea. 


base.html 文件 的 查找 动作 对 应 http://127.0.0.1:8000/book-search/ 这 个 URL 地 址 ， 该 动 
作 的 处 理 函 数 为 views.py 的 get contacts 函数 : 


























def get contacts (request): 
logging.debug('here') 
if request.method -- 'GET': 
get data = request.GET 
data= get data.get('term','') 
if data == '': 
return render to response( 
'addressesapp/nopersonfound.html', 
RequestContext (request, ())) 
else: 
return redirect('$s?$s' $ 
(reverse('addressesapp.views.addressesbook'), 
urllib.urlencode(('letter': data])))) 








如 果 用 户 在 页 面 头 部 的 文本 域 ,输入 一 个 非 空 字 符 串 , 该 函数 将 请 求 转交 addressesbook 
函数 ， 去 搜索 用 户 输入 的 查询 词 〈 若 未 找到 ， 展 示 相 应 的 提示 页 )。 


导航 栏 的 Emails book 按钮 ,指向 URL http://127.0.0.1:8000/book/, i2; URL 触发 addressesbook 
函数 ， 展 示 联 系 人 列表 : 











def addressesbook (request): 
context = {} 
logging.debug('address book') 
get data = request.GET 
letter = get data.get('letter',None) 
if letter: 
contacts = Person.objects.filter(name iregex-r"(^|Ns)$s" $ 
letter) 
else: 
contacts - Person.objects.all() 
#sorted alphabetically 
contacts = sort lower(contacts,"name")fcontacts.order by ("name") 
context['contacts']-2contacts 
alphabetstring-'ABCDEFGHIJKLMNOPQRSTUVWXYZ!' 
context['alphabet']-[1 for 1 in alphabetstring] 
return render to response( 
'addressesapp/book.html', RequestContext(request, context)) 
def sort lower(lst, key name): 
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return sorted(lst, key-lambda item: getattr (item, 
key name).lower()) 





letter 字段 存储 名 字 (Find 按钮 发 起 请 求 ， 再 转交 addressesbook 函数 处 理 时 ) 或 字母 
(从 Emails book 页 面 发 起 的 请 求 )， 然 后 对 Person model 进行 查找 。 检索 得 到 的 联系 人 信息 
存储 在 context 对 象 contacts 中 , 而 字母 存储 在 context 对 象 alphabet 中 .如果 没 有 指定 字母 ， 
返回 数据 库 所 有 联系 人 信息 。 请 注意 ， 名 字 首 字母 大 小 写 都 有 可 能 ， 因 此 常用 的 order by 
方法 无 法 按照 字母 顺序 为 名 字 排 序 。 因 而 ， 我 们 使 用 sort lower 方法 ， 先 将 每 个 名 字 转 换 
为 小 写 形 式 ， 再 按 字母 顺序 排 月 

删除 操作 由 delete person 函数 实现 ， 请 求 http://127.0.0.1:8000/delete/(?P.*)/ 这 个 URL 
地 址 可 触发 删除 操作 。.* 表 示 所 有 字符 都 是 名 字 的 合法 组 成 部 分 (注意 如 果 我 们 只 想 用 
符 、 数 字 和 空格 ， 应 使 用 [a-zA-Z0-9 ]+): 



























































































































































def delete person(request,name): 
if Person.objects.filter(name-zname).exists(): 
p = Person.objects.get (name-name) 
p. delete () 


context = {} 
contacts = Person.objects.all() 
#sorted alphabetically 
contacts = sort_lower (contacts ,"name")#contacts.order by ("name") 
context [ ' contacts ' ] =contacts 
return render to response( 
'addressesapp/book.html', RequestContext(request, context)) 























H 














只 包含 剩余 联系 





该 函数 搜索 Person 数据 表 ， 查 询 变 量 name， 找 到 后 删除 ， 最 后 返 
人 信息 的 地 址 短 页 面 。 


同 理 ， 我 们 在 urls.py 文件 中 定义 的 “notfound” 这 一 URL， 激 活 未 找到 联系 人 时 的 处 
里 函数 notfound， 你 现在 应 该 明白 它 的 工作 方式 。 

URL 地 址 admin 指向 Django 的 管理 后 台 ( 见 下 节 ), 而 docs 为 REST 框架 的 swagger, 
我 们 在 6.3.3 节 会 讲 。 




























































































6.3 管理 后 台 





admin 面板 是 管理 应 用 的 用 户 界面 ， 可 通过 浏览 器 访问 。 我 们 可 以 把 刚 创 建 的 model 
加 到 admin.py 文件 里 ， 命 令 如 下 : 
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from models import Person 


admin .site.register (Person) 

















所 有 model 都 可 以 从 用 户 界面 访问 ， 地 址 在 : 


http://127.0.0.1:8000/admin/ 


访问 以 上 网 址 ， 需 输入 用 户 名 和 密码 才能 完成 登录 。 所 以 ， 我 们 先 用 以 下 命令 创建 用 
PH, WEA: 








python manage.py createsuperuser 


然后 ， 输 入 用 户 名 、 密 码 (我 用 的 是 andreaya ) 。 
登录 后 ， 我 们 就 可 以 探索 管理 面板 了 ， 见 图 6.3: 

















nistration 





Site administration 


Es 避 避 


Persons 


"RAdd Change 


MÀ 


Groups {Add 2 Change 


Users {Add #2 Change 











图 6.3 











单 击 Persons, 我 们 将 会 看 到 用 联系 人 名 字 表 示 的 Person 对 象 ( 因 为 我 们 在 Person model 
的 _unicode ”函数 里 ， 指 定 用 名 字 这 个 字段 指 代 模型 )， 见 图 6.4: 


Select person to change 




















Action: | --------- zl Go | 0 of 4 selected 
.] Person 

addd-ww 

www 1 

Andrea Isoni 


ss 


4 persons 














P 








6.4 





6.3.1 shell 接口 





Django 框架 还 提供 用 shell 探索 和 测试 已 创建 的 model. 在 终端 输入 以 下 命令 ,启用 shell: 
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python manage.py shell 


5 X Person model， 并 尝试 操作 它 : 


In [1]: from addressesapp.models import Person 

In [2]: newcontact - Person() 

In [3]: newcontact.name = 'myfriendl' 

In [4]: newcontact.mail = 'blal .com' 

In [5]: newcontact.save() 

In [6]: Person.objects.all() 

Out[6]: [<Person: ss», «Person: Andrea Isoni», «Person: www 1», 
XPerson: addd-ww», «Person: myfriendl»] 











上 述 代 码 新 建 一 个 联系 人 对 象 myfriendl ， 然 后 查询 所 有 的 Person 对 象 ， 以 证 实 新 对 
象 有 没有 创建 成 功 。 


6.3.2 命令 

















Django 框架 很 灵活 ， 我 们 可 以 自 定义 命令 并 用 manage.py 模块 来 执行 。 例 如 ， 我 们 想 
导出 联系 人 列表 到 CSV. 文件 。 方法 如 下 : 在 management 文件 来 创建 commands 文件 夹 (每 
个 文件 夹 都 放 一 个 _init_.py 文件 )。 然 后 ， 扩 展 BaseCommand 类 ， 实 现 用 自 定义 的 命令 
导出 联系 人 列表 到 CSV 文件 的 功能 : 



































from addressesapp.models import Person 

from django.core.management.base import BaseCommand, CommandError 
from optparse import make option 

import csv 


class Command (BaseCommand) : 
option list = BaseCommand.option list + (人 
make option('--output', 
dest-'output', type-'string', 
action-'store', 


helpz-'output file'), 
def person data(self, person): 
return [person.name,person.mail] 
def handle(self, *args, **options): 


outputfile - options['output'] 
contacts - Person.objects.all() 
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header = ['Name','email'] 

f = open(outputfile, 'wb') 

writer = csv.writer(f, quoting-csv.QUOTE NONNUMERIC) 

writer.writerow (header) 

for person in contacts: 
writer.writerow(self.person data (person)) 





该 命令 必须 定义 一 个 handler 函数 ， 执 行 导 出 操作 。 在 test. server 文件 夹 路 径 下 ， 执 行 


下 面 命令 : 




















python manage.py contacts tocsv -output='contacts list.csv' 


6.3.3 RESTful 应 用 编程 接口 (API ) 


























RESTful API 是 采用 HTTP 请 求 〈 比 如 GET 和 POST) 管理 Web 应 用 数据 的 应 用 编程 接 
。 举 个 例子 ,我 们 要 实现 用 curl 命令 调用 API 来 获取 地 址 短 。 方 法 如 下 :我 们 需要 在 settings.py 
INSTALLED APPS 部 分 定义 rest framework 应 用 ， 然 后 在 api.py 文件 实现 这 个 API: 






















































































from rest framework import viewsets, generics, views 

from rest framework.response import Response 

from rest framework.permissions import AllowAny 

from rest framework.pagination import PageNumberPagination 
from addressesapp.serializers import AddressesSerializer 
from addressesapp.models import Person 


class LargeResultsSetPagination (PageNumberPagination): 
page size - 1000 
page size query param - 'page size' 
max page size - 10000 


class AddressesList(generics.ListAPIView): 


serializer class - AddressesSerializer 
permission classes - (AllowAny,) 
pagination class - LargeResultsSetPagination 


def get queryset (self): 
query = self.request.query params.get 
if query('name'!): 
return Person.objects.filter(name-query('name')) 
else: 
return Person.objects.all() 





我 们 用 ListAPIView 类 , 返回 所 有 Person 对 象 , 或 只 返回 与 name 值 匹配 的 Person 对 象 。 
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为 返回 的 列表 也 许 很 大 ， 我 们 需要 重 写 PageNumberPagination 类 ， 在 同一 页 展示 更 多 的 对 象 ; 
LargeResultsSetPagination 类 , 每 页 最 多 可 包含 1 万 个 对 象 ,该 API 需要 将 Person 对 象 转换 为 JSON 
格式 的 对 象 ， 在 serializers.py 文件 编写 serializer 对 象 Addresses Serializer 来 实现 这 个 功能 : 


from addressesapp.models import Person 
from rest framework import serializers 


class AddressesSerializer(serializers.HyperlinkedModelSerializer): 
class Meta: 


model - Person 
fields = ('id', 'name', 'mail'") 





然后 ， 我 们 可 以 用 cur 命令 请 求 地址 德 ; 


curl -X GET http://localhost:8000/addresses-list/ 











注意 URL 最 后 的 斜 线 。 同 样 ， 我 们 可 以 通过 指定 联系 人 姓名 来 获取 他 们 的 邮箱 : 


curl -X GET http://localhost:8000/addresses-st/?name-name value 












































如 果 联 系 人 数量 很 多 (或 修改 分 页 的 数量 ), 我 们 可 以 用 参数 指定 请 求 哪 一 页 。 在 urls.py 


文件 ， 我 们 还 指定 了 Swagger RESTful API 文档 的 URL 地 址 ， 开 发 人 员 可 在 浏览 器 查看 和 


测试 这 些 API， 见 图 6.5: 


t} swagger 


http://127.0.0.1:8000/docs/api-docs/ 





addresses-list E 


/addresses-list/ 


Response Class 
Model Mo 


AddressesSerializer { 
id (integer), 
name (string), 
mail (string) 


} 


Response Content Type application/json 
Try it out! 














D 








6.5 
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这 种 方式 非常 友好 ， 便 于 开发 人 员 验 证 API 是 否 能 够 正常 工作 ， 数 据 格 式 是 否 正确 。 





6.4 小 结 

















本 章 讨 论 怎样 用 Django 框架 搭建 Web 应 用 。 我 们 介绍 了 model. admin, view. command, 
shell 以 及 RESTful API 等 Django 的 主要 功能 。 学 完 本 章 , 读者 应 该 已 具备 开发 实用 型 Web 
凡 用 的 必要 知识 。 
后 续 两 章 ， 我 们 将 用 这 些 知识 和 前 面 所 讲 的 内 容 搭 建 电 影 推荐 引擎 和 电影 情 






































DE 























感 分 析 系 统 。 
































异步 社区 会 员 TUYO S bbb n0» Sy 963 31S com) 专 享 尊重 版 权 





第 7 章 
电影 推荐 系统 Web 应 用 





























本 章 讲解 如 何 用 Django 框架 搭建 一 个 真实 的 推荐 系统 。 该 系统 的 主要 功能 是 ， 根 据 用 
户 的 喜好 (第 5 章 讲 过 )， 向 订阅 了 推荐 服务 的 用 户 推荐 电影 ， 我 们 沿用 第 5 章 的 电影 评分 
数据 : 603 部 电影 的 打分 数据 ， 其 中 每 部 电影 的 打分 人 次 在 50 次 以 上 ， 共 有 942 位 用 户 参 
与 打分 。 为 了 能 够 得 到 系统 提供 的 电影 推荐 服务 ， 每 位 用 户 需要 为 一 定数 量 的 电影 打分 ， 
我 们 特意 讲解 信息 检索 系统 的 实现 〈 第 4 章 )， 以 帮助 用 户 检 索 电 影 、 完 成 打分 。 我 们 还 将 
讨论 Django 应 用 的 不 同 部 分 : setting、model、 用 户 登 录 / 登 出 、 命 令 、 信 息 检 索 系 统 、 推 荐 系 
统 、 管 理 后 台 和 API (所 有 代码 均 已 放 到 作者 GitHub 仓库 chapter 7 文件 夹 : https://github.com/ 
ai2010/machine learning for the web/tree/master/chapter 7)。 因 为 第 6 章 只 介绍 了 Django 的 
主要 功能 ， 所 以 在 开发 电影 推荐 系统 过 程 中 ， 每 遇 到 一 个 新 功能 ， 我 们 都 会 讲解 其 技术 细 
节 。 现 在 我 们 开始 介绍 推荐 系统 这 个 Web 应 用 的 初始 化 配置 ， 让 它 先 跑 起 来 。 


7.1 让 应 用 跑 起 来 











































































































































































































































































































按照 之 前 的 做 法 ， 新 建 一 个 Django 项 目 








django-admin startproject server movierecsys 





在 server_movierecsys 文件 夹 下 ， 新 建 一 个 应 用 : 





python manage.py startapp books recsys app 

















接 下 来 ， 对 settings.py 里 面 的 各 项 内 容 进 行 设置 。 仿 照 第 6 章 的 做 法 ， 安 装 应 用 ， 指 
定 HTML 模板 和 样式 文件 的 路 径 ， 指 定 使 用 SQLite 数据 库 : 


INSTALLED APPS = ( 
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'django. 
'django. 
'django. 
'django. 
'django. 
'django. 


荐 系统 Web 应 用 


contrib.admin', 
contrib.auth', 
contrib.contenttypes', 
contrib.sessions', 
contrib.messages', 


contrib.staticfiles', 


'rest framework', 


'rest framework swagger', 


'books recsys app', 









































TEMPLATE DIRS = ( 
os.path.join(BASE DIR, 'templates'), 
) 
STATIC URL = '/static/' 
STATICFILES DIRS = ( os.path.join(BASE DIR, "static"), ) 
DATABASES = ( 
'default': { 
'ENGINE': 'django.db.backends.sqlite3', 
'NAME': os.path.join(BASE DIR, 'db.sqlite3!'), 











除了 Django 提供 的 标准 应 用 ， 我 们 还 在 应 用 列表 (INSTALLED_APPS) 添加 了 REST 


框架 (swagger)。 


























该 例 中 ， 我 们 需要 将 数据 加 载 到 内 存 中 长 久保 存 ， 这 样 每 次 用 户 请 求 数据 ， 无 须 计 算 
或 检索 数据 ， 以 此 来 提升 用 户 体验 。 我 们 在 settings.py 文件 ， 设 置 启用 Django 框架 的 缓存 
系统 ， 将 数据 或 计算 开销 较 大 的 运算 结果 保存 到 内 存 : 



























































CACHES = { 
'default': { 
'BACKEND': 'django.core.cache.backends.filebased. 
FileBasedCache', 
'LOCATION': '/var/tmp/django cache', 
'TIMEOUT': None, 





我 们 选择 使 用 存储 在 /var/tmp/django_cache 的 File Based Cache 2573, TIMEOUT (过 
期 时 间 ) 设置 为 None， 表 示 绥 存 中 的 数据 永 不 过 期 。 
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7.2 model 





用 以 下 命令 创建 超级 管理 员 用 户 ， 以 便 使 用 管理 后 台 : 

















python manage.py createsuperuser (admin/admin) 

















输入 以 下 命令 ， 启 动 服务 器 ， 访 问 http://localhost:8000/， 就 能 看 到 应 用 的 首页 : 








python manage.py runserver 


7.2 model 
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对 于 电影 推荐 系统 这 一 应 用 ， 我 们 需要 存储 每 一 部 电影 的 相关 数据 以 及 每 位 网 站 | 








s 





的 打分 数据 。 我 们 需要 创建 三 个 模型 ， 


class UserProfile (models.Model): 





user = models.ForeignKey(User, unique-True) 
array = jsonfield.JSONField() 
arrayratedmoviesindxs = jsonfield.JSONField() 
lastrecs = jsonfield.JSONField() 


def | unicode (self): 


return self.user.usernam 





def save(self, *args, **kwargs): 
create - kwargs.pop('create', None) 
recsvec - kwargs.pop('recsvec', None) 
print 'create:',create 
if create--True: 
super(UserProfile, self).save(*args, **kwargs) 





lif recsvec!-Non 
self.lastrecs - json.dumps (recsvec.tolist()) 
super(UserProfile, self).save(*args, **kwargs) 
else: 
nmovies = MovieData.objects.count() 














array = np.zeros (nmovies) 
ratedmovies = self.ratedmovies.all() 
self.arrayratedmoviesindxs = json.dumps([m.movieindx for m 


in ratedmovies]) 
for m in ratedmovies: 
array[m.movieindx] = m.value 
self.array = json.dumps (array.tolist()) 
super(UserProfile, self).save(*args, **kwargs) 
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class MovieRated (models.Model): 
user = models.ForeignKey(UserProfile, relat 











movie = models.CharField(max length-100) 
movieindx = models.IntegerField(default--1) 
value = models.IntegerField() 








class MovieData (models.Model): 
title = models.CharField(max length-100) 
array = jsonfield.JSONField() 
ndim = models.IntegerField(default-300) 
description = models.TextField() 


























d name-'ratedmovies') 


MovieData 这 个 model 存储 每 部 电影 的 相关 数据 : 影片 名 称 、 简 介 、 疝 量 表示 (ndim 
为 向 量 的 维度 )。MovieRated 记录 每 位 用 户 为 哪些 电影 打 过 分 (每 个 MovieRated 对 象 ， 对 
应 一 个 UserProfile 对 象 , 即使 用 该 网 站 的 用 户 )。UserProfile model 存储 网 站 所 有 注册 用 户 ， 

































































有 这 个 对 象 ， 电 影 打 分 和 推荐 功能 才 有 存在 的 可 能 。 每 个 UserProfile 是 对 Django 自 带 的 











user model 的 扩展 , 在 此 基础 上 增加 了 array 字段 , 以 存储 当前 用 户 对 所 有 电影 的 打分 数据 ， 













































































此 外 还 增加 了 recsvec 字段 ， 存 储 上 一 次 为 当前 用 户 推荐 的 电影 : 我们 重 写 了 save 函数 ， 
(与 当前 用 户 对 应 的 ) MovieRated 对 象 填充 array 字段 (如 果 else 语句 为 真 ); 用 上 一 次 














的 推荐 数据 填充 lastrees (如 果 else if 语句 为 真 )。 请 注意 ，MovieRated model 的 外 键 




















UserProfile， 其 related name 为 “raetedmovies ”: UserProfile model 的 save 函数 中 ， 














self.ratedmovies.all() 指 的 是 同一 UserProfile 的 所 有 RatedMovie 对 象 。UserProfile model 的 




















arrayratedmoviesindxs 字段 ， 记 录 着 用 户 打 过 分 的 所 有 电影 ，: 

















电影 推荐 系统 应 用 的 API 将 使 









































我 们 执行 以 下 命令 ， 将 models.py 文件 中 定义 的 这 些 数据 结构 写 到 数据 库 : 


python manage.py makemigrations 
python manage.py migrate 


7.3 命令 








电影 推荐 系统 这 一 应 用 , 为 了 让 用 户 感觉 速度 很 快 , 我 们 

















想 将 数据 加 载 到 内 存 (缓存 )， 


这 就 要 用 到 自 定义 的 命令 。 我 们 这 里 用 的 电影 数据 (603 部 电影 ，942 名 用 户 的 打分 数据 ， 
每 部 电影 打分 人 次 在 50 次 以 上 ) 跟 第 4 章 使 用 的 相同 , 但 是 除 此 之 外 , 搭建 信息 检索 系统 ， 



























































让 用 户 检 索 电影 、 完 成 打分 ， 还 需要 向 用 户 提供 电影 简介 供 




















其 参考 。 我 们 接 下 来 开发 第 一 











条 命令 ， 实 现 从 第 4 章 的 效用 和 矩阵 获取 电影 名 称 ， 再 从 开放 电影 数据 库 (Open Movie 
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Database, OMDB) 采集 








ERE fer] fF OU RE s 








from django.core.management.bas 


import os 
import optparse 
import numpy as np 


import json 


import pandas as pd 


import requests 


class Command (BaseCommand) : 


option list = BaseCommand.option list 十 


optparse.make option('-i', 


'--input', 


type-'string', 


import BaseCommand 


( 


optparse.make option('-o', '--outputplots', 


dest-'plotsfile', 


type-'string', 


help-('output file')), 


optparse.make option('--om', '--outputumatrix', 


dest-'umatrixoutfile', 


def getplotfromomdb (self,col,df moviesplots,df movies,df 


utilitymatrix): 





string = col.split(';')[0] 


title-string[:-6].strip() 





year = string[-5:-1] 

plot = ' '.join(title.split(' 

url = "http://www.omdbapi.com/?te"ctitle-t"&y-"4 
ll&r-json" 

headers-("User-Agent": "Mozilla/5.0 


x64) AppleWebKit/5 
Safari/537.36"] 


r = reques 
jsondata = 
if 'Plot' 


fstore plot + title 
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37.36 (KHTML, 





type-'string', 


help-('output file')), 





like Gecko) 


json.loads (r.content) 


in jsondata: 





(Windows NT 


6.3; 


73 命令 


dest-'umatrixfile', 
action-'store', 


help-('Input utility matrix')), 


action-'store', 


action-'store', 


')).encode('ascii','ignore')-*'. 


Fyeart"&plot-fu 


Win64; 


Chrome/37.0.2049.0 


ts.get(url,headers-headers) 
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plot += jsondata['Plot'].encode('ascii','ignore') 


if plot!-None and plot!-2'' and plot!-np.nan and 
len(plot)»3:4at least 3 letters to consider the movie 
df moviesplots.loc[len(df moviesplots)]-[string,plot] 
df utilitymatrix[col] = df movies[col] 


print len(df utilitymatrix.columns) 
return df moviesplots,df utilitymatrix 


def handle(self, *args, **options): 
pathutilitymatrix = options['umatrixfile'] 
df movies = pd.read csv(pathutilitymatrix) 
movieslist - list(df movies.columns[1:]) 


df moviesplots = pd.DataFrame(columns-['title','plot']) 
df utilitymatrix = pd.DataFrame() 
df utilitymatrix['user'] = df movies['user'] 


for m in movieslist[:]: 
df moviesplots,df utilitymatrix-self.getplotfromomdb (m,df 
moviesplots,df movies,df utilitymatrix) 


outputfile = options['plotsfile'] 
df moviesplots.to csv(outputfile, index-False) 





outumatrixfile = options['umatrixoutfile'] 





df utilitymatrix.to csv(outumatrixfile, index-False) 
该 命令 的 执行 方式 如 下 : 


python manage.py --input-utilitymatrix.csv --outputplots-plots.csv - 
outputumatrix-'umatrix.csv' 














每 部 电影 的 名 称 存储 在 utilitymatrix XF,  getplotfromomdb 函数 用 Python 的 requests 
模块 ， 从 网 站 http:/www.omdbapi.comy/ 检 索 电影 的 简介 。 电 影 简介 〈 和 和 名称) 以 及 相应 的 
RUTABEE Coutputumatrix) 保存 到 一 个 CSV 文件 Coutputplots) 。 


我 们 再 来 看 第 2 个 命令 : 用 电影 简介 ， 创 建 信息 检索 系统 CTF-IDF 模型 )， 支 持 根据 
j 户 输入 的 词语 查找 相关 电影 。 然 后 ,将 TF-IDF 模型 和 最 初 的 推荐 系统 模型 (基于 商品 的 
CF 和 对 数 似 然 比 ) 保存 到 Django 的 缓存 之 中 。 代 码 如 下 : 








































































































from django.core.management.base import BaseCommand 
import os 
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import optparse 
import numpy as np 
import pandas as pd 
import math 

import json 

import copy 


from BeautifulSoup import BeautifulSoup 











import nltk 

from nltk.corpus import stopwords 

from nltk.tokenize import WordPunctTokenizer 
tknzr = WordPunctTokenizer() 
fnltk.download('stopwords') 

stoplist = stopwords.words('english') 

from nltk.stem.porter import PorterStemmer 


stemmer = PorterStemmer() 





from sklearn.feature_extraction.text import TfidfVectorizer 





from books_recsys_app.models import MovieData 
from django.core.cache import cache 


class Command (BaseCommand) : 


option list = BaseCommand.option list + ( 
optparse.make option('-i', '--input', dest-'input', 

type-'string', action-'store', 
help-('Input plots file')), 

optparse.make option('--nmaxwords', '--nmaxwords', 
dest-'nmaxwords', 
type-'int', action-'store', 
help-('nmaxwords')), 

optparse.make option('--umatrixfile', '--umatrixfile', 
dest-'umatrixfile', 
type-'string', action-'store', 





help-('umatrixfile!')), 


def PreprocessTfidf (self,texts,stoplist-[],stem-False): 





newtexts - [] 
for i in xrange(len(texts)): 


text = texts[i] 
if stem: 
tmp = [w for w in tknzr.tokenize(text) if w not in 
stoplist] 
else: 
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tmp = [stemmer.stem(w) for w in [w for w in tknzr. 





tokenize(text) if w not in stoplist]] 
newtexts.append(' '.join(tmp)) 
return newtexts 


def handle(self, *args, **options): 
input file = options['input'] 


df = pd.read csv(input file) 
tot textplots - df['plot'].tolist() 
tot titles = df['title'].tolist() 


nmaxwords-options['nmaxwords'] 





vectorizer = TfidfVectorizer(min df-0,max features-nmaxwords) 


processed plots = self.PreprocessTfidf(tot 





textplots,stoplist,True) 
mod tfidf = vectorizer.fit(processed plots) 
vec tfidf = mod tfidf.transform(processed plots) 
ndims = len (mod tfidf.get feature names()) 





nmovies = len(tot titles[:]) 


fdelete all data 
MovieData.objects.all().delete() 


matr = np.empty([1,ndims]) 

titles = [] 

cnt=0 

for m in xrange (nmovies): 
moviedata = MovieData() 
moviedata.title-tot titles[m] 
moviedata.description-tot textplots [m] 
moviedata.ndim- ndims 


moviedata.array-json.dumps (vec tfidf[m].toarray()[0]. 





tolist()) 
moviedata.save() 
newrow = moviedata.array 
if cnt--20: 


matr[0]-2newrow 
else: 
matr = np.vstack([matr, newrow]) 
titles.append (moviedata.title) 
cnt+=1 
#cached 
cache.set('data', matr) 
cache.set('titles', titles) 


异步 社区 会 员 IREE dy lc d Std com) 专 享 尊重 版 权 





[Itt 


Cac 


ne 


73 命令 1 


.Set('model',mod tfidf) 


fload the utility matrix 


uma 


trixfile = options['umatrixfile'] 


df umatrix = pd.read csv (umatrixfile) 








Umatrix = df umatrix.values[:,1:] 
cache.set('umatrix',Umatrix) 

fload rec methods... 

cf itembased = CF itembased(Umatrix) 
cache.set('cf itembased',cf itembased) 
llr = LogLikelihood (Umatrix,titles) 
cache.set('loglikelihood',llr) 


from scipy.stats import pearsonr 


from scipy.spatial.distance import cosine 


def sim(x,y,metric-'cos!): 


if metric == 'cos': 


return 1.-cosine(x,y) 


else:dscorrelation 


return pearsonr (x, y)[0] 


class CF itembased(object): 


class LogLikelihood (object): 


命令 的 执行 方式 如 下 : 


python manage.py load data --input-plots.csv --nmaxwords-30000 


--umatrixfile-umatrix.csv 
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参数 input 接收 的 是 用 get plotsfromtitles 命令 获取 到 的 电影 简介 。 用 参数 nmaxwords 
指定 最 大 单词 数 ， 创 建 TF-IDF 模型 〈 见 第 4 章 )。 将 每 部 电影 的 数据 保存 到 MovieData 
象 ( 电 影 名 称 、TF-IDF 表示 、 简 介 、TF-IDF 词汇 量 )。 请 注意 ， 第 一 次 运行 该 命令 ， 需 



































Django 的 缓存 ; 





















































] nltk.download('stopwords') 语 句 下 载 停 用 词 表 (上述 代码 ， 该 行 语句 被 注释 掉 了 )。 
用 以 下 命令 ,将 TF-IDF 模型 、 电 影 名 称 列表 和 用 TF-IDF 算 阵 表示 的 电影 ， 保 存 








from django.core.cache import cache 


cache.set('model',mod tfidf) 
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cache.set('data', matr) 
cache.set('titles', titles) 


请 注意 ，Django 的 cache 模块 (django.core.cache ) 
使 用 前 ， 要 先导 入 它 。 导 入 语句 要 放 到 文件 的 开始 
位 置 。 




















照旧 ， 我 们 用 























效用 矩阵 Cumatrixfile) 初始 化 两 种 推荐 方法 : 基于 商品 的 协同 过 滤 和 对 
数 似 然 比 方法 。 这 两 种 方法 没有 写 到 上 面 的 代码 中 , 因为 它们 基本 与 第 
整 代 码 照 例 见 作者 的 GitHub 仓库 chapter 7 Xf 


BS 章 讲解 的 相同 ( 完 
F 夹 )。 然 后 ,我 们 将 这 两 种 推荐 模型 及 效 
AB EU Django 的 缓存 以 备 后 续 之 





















































cache.set('umatrix',Umatrix) 


cache.set('cf itembased',cf itembased) 
cache.set('loglikelihood',llr) 


现在 ， 调 用 相应 的 名 称 ， 就 可 以 刀 














E 网 页 使 用 数据 (和 模型 )， 详 见 后 续 几 节 
71.4 实现 用 户 的 注册 、 登 录 和 登 出 功能 








电影 推荐 系统 这 一 应 用 ， 是 要 向 注册 网 站 的 不 同 用 户 推荐 电影 ， 因 此 我 们 需要 实现 注 
册 、 登 录 和 登 出 功能 。 我 们 使 用 Django 的 标准 User 对 象 实现 注册 过 程 ， 前 面 model 一 节 



















































































己 讲 过 User 对 象 。 该 应 用 的 每 个 网 页 都 将 引 月 
部 横 栏 ， 支 持 用 户 注 册 或 登录 〈 右 侧 )， 见 

















图 7.1: 





H base.html 页 面 ， 我 们 在 base.html 实现 了 顶 














图 7.1 





Im- 
十 











F signin 〈 登 录 ) 或 sign up 〈 注 册 ) 按钮 ， 将 激活 以 下 代码 : 





<form class-"navbar-search pull-right" action="{% url 
'auth' %}" method-"GET"» 


($ 





csrf token %} 


«div style-"overflow: hidden; padding-right: 
. 5em; "> 


<input type="submit" name-"auth method" 
value="sign up" size="30" style="float: 


right" /> 
<input type="submit" name-"auth method" 
value-2"sign in" size="30" style="float: 


right" /» 
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«/div» 


«/form» 





这 两 个 方法 指向 urls.py: 


url(r'^auth/', 'books recsys app.views.auth', 





上 述 URL 调用 views.py 文件 的 auth 函数 来 处 理 : 


def auth(request): 





if request.method -- 
data = request.G 





auth method = data.get('auth method') 


if auth method--' 


[Ej 




















u 


'GET': 





sign in': 





return render 


'books recsys app/signin.html', 


{})) 


else: 


to response( 





return render to response( 
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name-'auth') 





RequestContext (request, 


'books recsys app/createuser.html', 


RequestContext (request, (])) 








lif request.method == "POST 
post data = request.POS] 


- 








name = post data.get('name', None) 


pwd = post data.get('pwd', None) 


pwdl = post data.get('pwdl', None) 


create - post data.get('create', None)4hidden input 





if name and pwd and create: 





if User.objects.filter(username-name).exists 


pwd!-pwdl: 


return render to response( 








'books recsys app/userexistsorproblem.html', 





RequestContext (request)) 


0 





user = User.objects.create user (username-name,password-pwd) 


uprofile = UserProfile() 


uprofile.user 


uprofile.nam 


— MSer 





= uSer.usernam 





uprofile.save(create-True) 





user = authenticat 


login(request, 


return render 


user) 





to response( 


'books recsys app/home.html', 
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(username-name, 


password-pwd) 


or 
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elif name and pwd: 





user = authenticate (username-name, password-pwd) 
if user: 
login(request, user) 





return render to response( 
'books recsys app/home.html', 
RequestContext (request)) 
else: 
fnotfound 
return render to response( 








'books recsys app/nopersonfound.html', 
RequestContext (request)) 

















auth 函数 将 用 户 导 向 图 7.2 注册 页 面 : 
























































Create User 
图 7.2 
如 用 户 已 注册 ， 将 导向 登录 页 面 ， 见 图 7.3: 
~ [ EC 
Sign In 

















图 7.3 


该 页 面 支持 用 户 输入 用 户 名 和 密码 ， 登 录 网 站 。 然 后 ， 网 站 用 这 些 数据 创建 Django HE 
架 的 User 对 象 和 相应 的 UserProfile 对 象 (注意 参数 create 为 True， 表 示 保 存 新 建 的 用 户 对 
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象 时 ， 没 有 为 其 指定 电影 列表 ， 因 为 新 用 户 还 没有 为 任何 电影 打 过 分 ): 














user 





= User.objects.create user (username-name,password-pwd) 


uprofile = UserProfile() 


upro 
upro 


file.user = user 
file.save(create-True) 
= authenticate (username=name, password-pwd) 








user 























然后 


from 





logi 














; Hi Django 的 标准 登录 函数 将 用 户 登 录 进 来 : 


django.contrib.auth import authenticate, login 





n (request, user) 











登录 之 后 ， 网 站 的 顶 栏 显示 效果 Cusername X a) 见 图 7.4: 


EE 








图 7.4 





























如 果菜 一 用 户 的 名 字 已 存在 《注册 时 ， 遇 到 的 异常 情况 ) 或 用 户 找 不 到 (登录 时 ， 遇 到 的 


异常 情况 ), 这 两 种 情况 的 处 理 均 已 实现 , 读者 可 自行 查看 代码 ， 了 解 这 些 异 常事 件 的 处 理 方法 。 


sign 


url(r 


该 U 

































































out CE) 按钮 指向 urls.py 以 下 语句 : 


'^signout/','books recsys app.views.signout',name-'signout') 





RL 调用 views.py 文件 的 signout 函数 处 理 : 


from django.contrib.auth import logout 


def 


该 函 


signout (request): 
logout (request) 
return render to response( 
'books recsys app/home.html', RequestContext (request)) 


























数 使 用 了 Django 标准 的 logout 方 法 ,将 用 户 导向 首页 (再 次 显示 sign in 和 sign up? 


























按钮 )。 实 现 了 注册 、 登 录 和 登 出 功能 之 后 ， 用 户 可 以 登录 网 站 ， 使 用 信息 检索 系统 “搜索 














引擎 ) 搜索 电影 ， 为 电影 打分 。 下 节 ， 我 们 讲 信息 检索 系统 的 实现 方法 。 


























7.5 信息 «m ZA ( 影 查询 ) 























— 























j 户 使 用 图 7.5 的 页 面 ， 搜 索 电影 ， 以 便 为 电影 打分 : 














(D 原文 为 


Gian ; » 
sign in and sign out" , 

















户 登 出 后 ， 应 显示 注册 按钮 “sign up”。 一 一 译 者 注 

















各 
iml 


ERRIN 
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tone 











Search for movies to rate (title, actor, description etc.) 














图 7.5 


在 文本 框 输入 几 个 相关 词 ， 该 页 面 〈 通 过 urls.py 文件 里 的 URL home) 调用 views.py 
文件 里 的 home 函数 : 





























def home(request): 
context-(] 
if request.method == 'POST': 
post data = request.POST 
data = () 
data = post data.get('data', None) 
if data: 
return redirect('$s?$s' % (reverse('books recsys app. 





views.home'!), 
urllib.urlencode(('q': data}))) 
lif request.method == 'GET': 
get data = request.GET 

data = get data.get('q',None) 
titles = cache.get('titles') 
if titles--None: 

print "Load. data..." 

texts = [] 

mobjs = MovieData.objects.all() 











ndim = mobjs[0].ndim 

matr = np.empty([1,ndim]) 

titles list = [] 

cnt=0 

for obj in mobjs[:]: 
texts.append(obj.description) 
newrow = np.array(obj.array) 
fprint 'enw:',newrow 
if cnt==0: 

matr[0]-2newrow 


else: 
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matr = np.vstack([matr, newrow]) 
titles list.append(obj.title) 
cnt+=1 
torizer = TfidfVectorizer(min df=1,max features=ndim) 


processedtexts = PreprocessTfidf (texts,stoplist,True) 


mod 





1 = vectorizer.fit(processedtexts) 





cac 





he.set ('model',model) 


#cache.set ('processedtexts',processedtexts) 


cac 
cac 
else: 


he.set('data', matr) 
he.set('titles', titles list) 





print 'loaded',str(len(titles)) 


Umatrix 


= cache.get('umatrix') 


if Umatrix--None: 


df umatrix = pd.read csv (umatrixpath) 


Umatrix = df umatrix.values[:,1:] 


cache.set('umatrix',Umatrix) 
cf itembased = CF itembased(Umatrix) 
cache.set('cf itembased',cf itembased) 








cache.set('loglikelihood',LogLikelihood (Umatrix,moviesli 


st)) 


if not data: 





return render to response( 


context)) 


fload a 
matr - 
titles 


'books recsys app/home.html', RequestContext (request, 





ll movies vectors/titles 
cache.get('data') 


= cache.get('titles') 


model tfidf = cache.get('model') 


#find m 
queryve 
encode ('ascii', 


sims= c 





ovies similar to the query 

c = model_tfidf.transform([data.lower(). 
'ignore')]).toarray() 

osine similarity (queryvec,matr)[0] 


indxs sims = list(sims.argsort()[::-1]) 


titles query = list(np.array(titles)[indxs sims] 


[:nmoviesperque 


context 
sims[:nmoviespe 
context 


return 


ry]) 


['movies']-» zip(titles query,indxs 
rquery]) 
['rates']-[1,2,3,4,5] 





render to response( 
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'books recsys app/query results.html', 
RequestContext(request, context)) 











函数 开始 位 置 的 参数 data， 用 来 存储 用 户 输入 的 查询 词 。load_data 命令 将 模型 加 载 到 
内 存 后 ， 该 函数 利用 这 个 模型 ， 将 用 户 的 查询 词 转换 为 用 TF-IDF 方法 表示 的 向 量 : 








iudi 





matr = cache.get('data') 





titles = cache.get('titles') 
model tfidf = cache.get('model') 























从 缓存 检索 和 矩阵 〈 键 : matr)、 电 影 名 称 〈 键 : titles)， 返 回 与 查询 词 向 量 相似 的 电影 
列表 (更 多 内 容 见 第 4 章 )。 第 1 次 调用 该 函数 时 ， 绥 存 为 空 ， 这 时 直接 创建 模型 《和 其 他 
数据 )， 并 将 其 加 载 到 内 存 。 至 于 检索 系统 怎么 用 ， 我 们 举 个 例子 ， 比 如 用 户 输 入 war 作为 
查询 词 ， 网 站 将 返回 与 war RE) 最 相似 的 电影 (query_results.html)， 见 图 7.6: 

























































































Results 
name: East of Eden (1955) rate: 4 
name: Gone with the Wind (19 rate: 1 
name: Full Meta! J y; rate: 1 1 
name: Platoon (1986) rate: 12345 
name: Legends of the Fall (1994) rate: 1234 

















图 7.6 


图 7.6 为 查询 词 war 的 检索 结果 ， 系 统 返回 5 部 电影 (我 们 可 以 在 views.py 文件 开始 
位 置 用 nmoviesperquery 指定 每 次 查询 返回 的 电影 数量 )， 并 且 它 们 大 多 与 战争 有 关 。 我 们 
下 节 要 实现 在 这 个 页 面 上 为 电影 打分 这 一 功能 。 


7.6 打分 系统 






































































































































在 电影 检索 结果 页 面 〈 见 图 7.6)， 每 位 用 户 〈 和 登录 后 ) 单 击 电影 名 称 后 面 的 分 数 ， 即 
可 为 电影 打分 。 单 击 分 数 的 动作 ， 将 触发 views.py 文件 的 rate movie 函数 〈 通 过 在 urls.py 
定义 的 URL): 











def rate _ movie (request): 





data = request.GET 
rate = data.get("vote") 
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movies,moviesindxs zip(*literal eval(data.get( 


movie data.get("movie") 


movieindx int (data.get("movieindx")) 


fsave movie rate 


userprofile None 


if request.user.is superuser: 





( 

'books recsys app/superusersignin.html', 
st)) 

r.is authenticated() 


return render to respons 





RequestContext (requ 





lif request.us 
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"movies"))) 





userprofile UserProfil 
else: 


( 


'books recsys app/pleasesignin.html', 


return rend 





r to respons 





RequestContext (request)) 





J 


if MovieRated.objects.filter (movie-movi 
filter(user-userprofile).exists(): 


.objects.get(user-request.user) 





mr = MovieRated.objects.get(movie-movie,user-userprofile) 


mr.value - int(rate) 
mr.save() 

else: 
mr = MovieRated() 
mr.user - userprofile 
mr.value - int(rate) 
mr.movie - movie 
mr.movieindx = movieindx 
mr.save() 


userprofile.save() 
fget back the remaining movies 


movies RemoveFromList (movies,movie) 


moviesindxs 
print movies 
{} 


context["movies"] 


context 


zip (movies,moviesindxs) 
[1,2,3,4,5] 

( 

'books recsys app/query results.html', 


context["rates"] 





return render to respons 


RequestContext(request, context)) 





该 函数 将 电影 的 分 数 存储 在 MovieRated 对 象 中 ， 同 时 更 新 月 


RemoveFromList(moviesindxs,movieindx) 


户 相应 的 电影 分 数 向 量 








rate〈 通 过 userprofile.save() 实 现 )。 然 后 将 没有 打 过 分 的 电影 发 送 给 页 面 query_results.html。 
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请 注意 ， 用 户 登 录 后 才能 为 电影 打分 ， 若 用 户 没 有 登录 ， 则 执行 异常 事件 处 理 流 程 ， 要 求 
用 户 登录 (页 面 : pleasesignin.htmD. 
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该 函数 将 使 用 我 们 在 views.py 文件 的 前 面 定 义 的 几 个 参数 。 


nminimumrates-5 
numrecs-5 
recmethod = 'loglikelihood' 














nminimumrates 指定 用 户 最 少 为 几 部 电影 打 过 分 ， 才 能 得 到 推荐 服务 ; numrecs 指定 向 
j 户 推荐 多 少 部 电影 ; recmethod 指定 推荐 系统 使 用 的 推荐 方法 。 用 户 单 击 顶 栏 的 
Recommendations (电影 推荐 ) 可 查看 系统 向 他 推荐 的 电影 ， 见 图 7.7: 













































































T 









































- L 
图 7.7 
该 动作 将 触发 views.py 文件 的 movies recs KA 〈 通 过 请 求 在 urls.py 文件 里 定义 相应 
的 URL): 
def movies recs (request): 
userprofile - None 
if request.user.is superuser: 
return render to response( 
'books recsys app/superusersignin.html', 
RequestContext (request)) 
lif request.user.is authenticated(): 
userprofile = UserProfile.objects.get(user-request.user) 


else: 
return render to response( 
'books recsys app/pleasesignin.html', 
RequestContext (request)) 
ratedmovies-userprofile.ratedmovies.all() 








context = {} 

if len(ratedmovies)«nminimumrates: 
context['nrates'] = len(ratedmovies) 
context['nminimumrates']-nminimumrates 


return render to response( 
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'books recsys app/underminimum.html', 
RequestContext(request, context)) 





























u vec = np.array(userprofile.array) 
Umatrix = cache.get('umatrix') 
movieslist = cache.get('titles') 
frecommendation... 
u rec - None 
if recmethod == 'cf userbased': 
u rec = CF userbased(u vec,numrecs,Umatrix) 
lif recmethod == 'cf itembased': 
cf itembased = cache.get('cf itembased') 
if cf itembased -- Non 
cf itembased = CF itembased(Umatrix) 
u rec = cf itembased.CalcRatings (u vec,numrecs) 
lif recmethod == 'loglikelihood': 
llr = cache.get('loglikelihood') 
if llr -- None: 


llr = LogLikelihood (Umatrix,movieslist) 
u rec = llr.GetRecItems (u vec,True) 
fsave last recs 








userprofile.save(recsvec-u rec) 


context['recs'] = list(np.array (movieslist) [list(u rec)] 
[:numrecs]) 


return render to response( 





'books recsys app/recommendations.html', 
RequestContext(request, context)) 
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该 函数 从 当前 用 户 的 UserProfile 对 象 检索 所 有 已 打分 电影 的 向 量 ， 从 绥 存 加 载 推荐 系统 方 
ik OH recmethod 参数 指定 ) 计算 推荐 哪些 电影 。 推 荐 的 电影 首先 存储 到 userprofile 对 象 ， 然 
后 返回 给 recommendations.html 页 面 。 例 如 ， 用 cf itembased 方法 得 到 的 推荐 列表 ， 见 图 7.8: 



































Recommendations 
movie: Some Kind of 1987) 






movie: Sne 
movie: Jeny Ma 


movie: Mars Allacks 





movie: Jaws 

















D 











7.8 
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图 7.8 是 推荐 结果 页 面 的 示例 ， 我 们 为 与 war 关键 词 相关 的 5 部 电影 打 过 分 后 〈 见 之 
前 的 打分 页 面 )， 得 到 了 这 样 ~ HR. RAI RWWA EN =D, HAE 
推荐 算法 ， 看 看 结果 有 什么 





























7.8 管理 界面 和 API 












































为 了 方便 管理 推荐 系统 的 数据 ， 我 们 可 以 使 用 管理 后 台 和 API。 编 写 admin.py 文件 ， 
我 们 就 能 在 管理 面板 看 到 电影 数据 和 用 户 注册 数据 ， 代 码 如 下 : 

















from django.contrib import admin 


from books recsys app.models import MovieData,UserProfile 


class MoviesAdmin (admin.ModelAdmin): 
list display = ['title', 'description'] 





admin.site.register (UserProfile) 
admin.site.register (MovieData,MoviesAdmin) 





然后 ， 在 urls.py 文件 指定 admin 的 URL: 





url(r'^admin/', include (admin.site.urls)) 











现在 ,我 们 应 该 能 够 在 管理 面板 (地 址 为 http://localhost:8000/admin/) 看 到 两 个 模型 及 
在 admin.py 文件 里 指定 的 、 要 在 管理 面板 显示 的 各 个 model 的 字段 ， 见 图 7.9: 


























Django administratior 
Site administration 
Groups "hAdd Æ Change 
Users 中 Add Æ Change 
Movie datas "RAdd 2# Change 
User profiles "hAdd Æ Change 
图 7.9 














我 们 大 要 想 实 现 通过 API 终 点 (endpoint) 检索 每 位 注册 用 户 数 据 的 功能 ， 首先 需要 编 
写 serializers.py， 指 定 检索 UserProfile model 的 字段 : 








from books recsys app.models import UserProfile 
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from rest framework import serializers 








class UsersSerializer(serializers.HyperlinkedModelSerializer): 
class Meta: 
model = UserProfile 
fields = ('name', 'arrayratedmoviesindxs','lastrecs') 








比如 ， 我 们 想 采 集 用 户 打 过 分 的 电影 的 ID、 上 一 次 向 他 推荐 的 电影 ID。 然后， 我 们 在 
api.py 文件 编写 API， 如 下 所 示 : 

















from rest framework import generics 

from rest framework.permissions import AllowAny 

from rest framework.pagination import PageNumberPagination 
from books recsys app.serializers import UsersSerializer 





from books recsys app.models import UserProfile 


class LargeResultsSetPagination (PageNumberPagination): 
page size - 1000 
page size query param = 'page size' 
max page size - 10000 


class UsersList(generics.ListAPIView): 





serializer class = UsersSerializer 


permission classes = (AllowAny,) 





pagination class = LargeResultsSetPagination 


def get queryset(self): 
query = self.request.query params.get 








if query('name'): 

return UserProfile.objects.filter(name-query('name')) 
else: 

return UserProfile.objects.all() 
































我 们 也 许 只 想 查 询 特定 用 户 的 数据 ， 因 此 该 API 需要 支持 用 name 作为 查询 参数 。 编 
写 好 API 后 ， 我 们 再 在 urls.py 文件 设置 相应 的 URL: 








url(r'^users-list/',UsersList.as view(),name-'users-list') 


然后 ， 我 们 可 以 在 终端 用 curl 命令 调用 这 个 API 接口 : 





curl -X GET localhost:8000/users-list/ 
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我 们 还 可 以 用 swagger 接口 调用 这 个 API 接口 ， 进 行 测试 〈 见 第 6 章 )。 





7.9 小 结 



































本 章 , 我 们 介绍 了 如 何 用 Django 框架 搭建 电影 推荐 系统 。 学 完 本 章 , 对 于 如 何 用 Python 
语言 编写 用 机 器 学 习 算法 驱动 的 、 专 业 的 Web 推荐 应 用 ， 你 应 该 具有 一 定 的 信心 了 。 

下 一 章 ， 也 就 是 本 书 的 最 后 一 章 ， 我 们 将 通过 另外 一 个 实例 一 一 搭建 Web 情感 分 析 系 
统 ， 加 深 你 对 如 何 高 效 地 运用 Python 语言 编写 Web 机 器 学 习 应 用 的 理解 。 
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第 8 章 
影评 情感 分 析 应 用 











在 本 章 中 , 我 们 用 前 几 章 介绍 的 算法 和 方法 , 开发 一 套 能 够 判断 影评 情感 倾向 的 情感 分 析 
系统 。 我 们 还 将 用 Scrapy 库 ， 通 过 搜索 引擎 API Bing 搜索 引擎 ) 从 不 同 的 网 站 采集 影评 数 
Hio 我 们 用 newspaper 库 或 预先 定义 好 的 HTML 页 面 抽取 规则 ， 从 影评 数据 抽取 影评 内 容 和 电 
影 名 称 。 我 们 用 朴素 贝 叶 斯 分 类 器 ， 以 包含 分 类 信息 最 多 〈 使 用 X 检测 ) 的 词语 作为 特征 ， 
得 到 每 条 影评 的 情感 倾向 ， 第 4 章 讲 过 该 方法 。 我 们 用 第 4 章 讲 过 的 PageRank 算法 ， 计 算 与 
每 个 电影 查询 词 相关 的 网 页 次 序 。 本 章 将 讨论 影评 情感 分 析 应 用 的 代码 , 包括 Django 的 model 
和 view， 我 们 用 Scrapy 库 的 scraper 从 网 页 采集 影评 数据 。 我们 首先 给 出 Web 应 用 的 样 例 ， 解 
释 我 们 使 用 的 搜索 引擎 API 和 将 其 整合 到 应 用 的 方法 。 然 后 ， 讲 解 影评 的 采集 方法 : 将 Scrapy 
库 整 合 到 Django、 编 写 存储 数据 的 model 和 管理 应 用 的 主要 命令 。 本 章 讨论 的 这 些 代 码 均 已 放 
到 作者 的 GitHub 仓库 chapter 8 文件 夹 ， 地 址 为 https://github.com/ ai2010/machine learning - 
for the web/tree/master/chapter 8. 


8.1 影评 情感 分 析 应 用 用 法 简介 



























































































































































首页 展示 效果 见 图 8.1: 


Movie Sentiment lyZer — Home 





Movie Search on Bing 
(exact title) 

















图 8.1 
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如 果 用 户 想 知 道 影评 的 情感 倾向 和 相关 性 , 他 们 输入 电影 的 名 称 进行 查询 即 可 。 例如 ， 


图 8.2 显示 的 是 电影 Batman vs Superman Dawn of Justice VET k^) pr £t S: 

















— 














Movie Sentiment Analysis 
Reviews Classified : 18 


Positive Reviews : 15 
Negative Reviews : 3 


Sentiment Pie Chart. 


@ Positive. 
4 Negative. 





calculate page rank 


scrape and calculate page rank (may take a long time) 




















图 8.2 


影评 情感 分 析 应 用 使 用 Serapy 库 从 Bing 搜索 引擎 采集 和 抽取 了 18 条 影评 ， 并 分 析 了 
影评 的 情感 倾向 C15 条 积极 和 3 条 消极 倾向 )。 所 有 数据 用 Django model 进行 存储 ， 便 于 
后 续 用 PageRank 算法 计算 每 个 页 面 与 查询 词 的 相关 性 (这些 功 能 的 入 口 见 图 8.2 底部 的 链 
接 )。 我 们 用 PageRank 算法 得 到 图 8.3 结果 : 

图 8.3 所 示 为 与 影评 查询 词 最 相关 的 页 面 ， 我 们 将 候 虫 的 候 取 深度 这 一 参数 设置 为 2 
(更 多 内 容 见 下 节 )。 请 注意 ， 如 想 获 得 相关 性 较 高 的 网 页 ， 需 要 扑 取 成 二 上 万 个 网 页 (图 
8.3 KER 50 个 网 页 得 到 的 结果 )。 

我 们 像 之 前 那样 ， 启 动 Django 的 Web 服务 器 (第 6 章 和 第 7 章 ) 和 主 应 用 。 首 先 ， 

新 建 一 个 文件 夹 movie reviews analyzer app 存储 代码 ， 然 后 初始 化 Django， 命 令 如 下 : 























— 



















































































































































































mkdir movie reviews analyzer app 

cd movie reviews analyzer app 
django-admin startproject webmining server 
python manage.py startapp startapp pages 

















包 该 电影 的 中 文 名 为 《蝙蝠 侠 大 战 超人 : 正义 黎明 》。 一 一 译 者 注 
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PageRank of movie reviews 
Url: http://indianexpress.com/photos/entertainment-gallery/batman-vs-superman-dawn-of-justice-movie-review-in-pics/ 
pagerank: 1.0 


Url: http://timesofindia.indiatimes.com/entertainment/english/movie-reviews/Batman-v-Superman-Dawn-of-Justice/movie- 
review/51539160.cms pagerank: 1.0 


Urt: http://timesofindia.indiatimes.com/entertainment/english/movie-reviews/Batman-v-Superman-Dawn-of-Justice/movie- 
review/51539160.cms?tabtype-spoiler pagerank: 1.0 


Url: http://wabi.tv/2016/03/27/batman-v-superman-dawn-of-justice-movie-review/ pagerank: 1.0 
Url: http://worldviewreviews.com/2016/03/26/batman-v-superman-review/ pagerank: 1.0 
Url: http://www.rottentomatoes.com/m/batman v superman dawn of justice/ pagerank: 1.0 
Url: https://www.commonsensemedia.org/movie-reviews/batman-v-superman-dawn-of-justice pagerank: 1.0 
Urt: http://moviefloss.com/batman-vs-superman-dawn-of-justice-movie-review/ pagerank: 1.0 


Url: http://www.sakshipost.com/index.php?option-com content&viewzarticle&id-77578&catid-24&Itemid- 1789?620& 
pfromshome-sakshi-post pagerank: 1.0 


Url: http://edition.cnn.com/2016/03/23/entertainment/batman-v-superman-review-thr-feat/ pagerank: 1.0 
Url: http://www.thereelword.net/batman-v-superman-dawn-of-justice-movie-review/ pagerank: 1.0 





Url: http//www.roaerebert.com/reviews/batman-v-superman-dawn-of-iustice-2016 paaerank: 0.00335595495563 











图 8.3 




















接着 ， 在 settings.py 文件 里 做 好 各 项 配置 ， 见 6.1.2 节 和 7.1 节 均 讲 过 (当然 需要 注意 
的 是 ， 该 例 中 项 目的 名 称 为 webmining server 而 不 再 是 server movierecsys). 

情感 分 析 应 用 的 主 视图 文件 在 webmining server 文件 夹 , 而 不 像 之 前 那样 位 于 应 用 ( 即 
pages 文件 夹 ) 文件 夹 〈 见 第 6 章 和 第 7 章 )， 因 为 这 些 功能 是 服务 器 的 通用 功能 ， 而 不 只 
是 服务 于 特定 应 用 (pages 应 用 )。 

Web 服务 跑 起 来 之 前 ， 最 后 一 项 操作 是 , 创建 超级 用 户 账号 ， 启动 Djagno 自 带 的 服务 器 : 






























































python manage.py createsuperuser (admin/admin) 
python manage.py runserver 





上 面 解释 了 情感 分 析 应 用 的 整体 结构 ， 接 下 来 我 们 从 采集 URL 的 搜索 引擎 API 开始 ， 
更 为 详细 地 讨论 该 应 用 的 各 个 部 件 。 


8.2 搜索 引擎 的 选取 和 应 用 的 代码 











鉴于 直接 从 Google. Bing. Yahoo 等 搜索 引擎 抓 取 内 容 ， 违 反 了 它们 的 服务 条 款 ， 
此 我 们 需要 用 REST API (还 可 以 用 Crawlera http://crawlera.com/ 等 抓 取 服务 〉 先 获取 一 些 
影评 页 面 。 我 们 最 终 决 定 使 用 Bing 提供 的 查询 服务 ， 它 每 月 免费 提供 5000 次 查询 。 
使 用 Bing 接口 之 前 ， 注 册 Microsoft Service， 获 取 key， 搜 索 时 需要 提供 该 key。 这 一 
系列 操作 简 述 如 下 : 
注册 https://datamarket.azure.com 网 站 。 
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在 My Account 栏目 ， 获 取 到 Primary Account Key。 


Y 


注册 一 个 新 应 用 (在 DEVELOPERS | REGISTER; 回调 地 址 Redirect URI 填 


T. 





https://www.bing.com)» 
然后 ， 编 写 函 数 ， 检 索 与 查询 词 相关 的 网 页 ， 网 页 数量 可 根据 需要 自己 指定 : 


num reviews = 30 
































def bing api (query): 








keyBing - API KEY get Bing key from: https://datamarket. 
azure.com/account/keys 

credentialBing = 'Basic ' + (':$s' $ keyBing).encode('base64')[:- 
1] 4$ the "-1" is to remove the trailing "Mn" which encode adds 

searchString = '$27X'-«query.replace(" ",'-')-«*'moviecrreview$27' 


top = 50f£maximum allowed by Bing 


reviews urls - [] 
if num reviews«top: 
offset = 0 
url = 'https://api.datamarket.azure.com/Bing/Search/Web?' + N 


'Query-$s&$top-$d&$skip-$d&$format-json' % 
(searchString, num reviews, offset) 


request - urllib2.Request (url) 
request.add header('Authorization', credentialBing) 





requestOpener = urllib2.build opener() 





response = requestOpener.open (request) 
results = json.load (response) 
reviews urls = [ d['Url'] for d in results['d']['results']] 
else: 
nqueries = int(float(num reviews)/top)-*1 
for i in xrange (nqueries): 
offset - top*i 
if i--nqueries-1: 
top = num reviews-offset 
url = 'https://api.datamarket.azure.com/Bing/Search/ 
Web?' + N 


9. 


'Query-$s&$top-$d&$skip-$d&$format-json' $ 
(searchString, top, offset) 


request - urllib2.Request (url) 
request.add header('Authorization', credentialBing) 
requestOpener - urllib2.build opener() 








response = requestOpener.open (request) 
else: 
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top-50 


url = 'https://api.datamarket.azure.com/Bing/Search/ 
Web?' + N 


'Query-$s&$top-$d&$skip-$d&$format-json' % 
(searchString, top, offset) 


request - urllib2.Request (url) 
request.add header('Authorization', credentialBing) 
requestOpener = urllib2.build opener () 








response = requestOpener.open (request) 
results = json.load (response) 
reviews urls += [ d['Url'] for d in results['d'] 


['results']] 


return reviews urls 


























参数 API KEY 的 值 是 从 Microsoft 账户 得 到 的 ，query 为 


30 为 Bing API 返回 的 URL 数量 。 拿 到 了 影评 的 URL， 我 们 接 下 来 就 来 编写 爬虫 ， 从 每 个 
页 面 抽取 电影 名 称 和 影评 









































8.3 Scrapy 的 配置 和 情感 分 析 应 用 代码 


























Python 库 Scrapy 是 用 来 抽取 网 2 n 页 链接 到 的 页 面 〈 更 多 内 容 见 旬 
章 4.1.1 节 )。 如 未 安装 Scrapy， 在 终端 输入 以 下 命令 进行 安装 : 














dur 

















sudo pip install Scrapy 











在 bin 目录 安装 可 执行 文件 : 








T 





sudo easy install scrapy 





在 movie reviews analyzer app 目录 下 ， 初 始 化 Scrapy Bi H : 


scrapy startproject scrapy spider 





上 述 命 令 将 在 scrapy. spider 文件 夹 创建 以 下 目录 文件 树 : 


EC init .py 
上 一 一 items.py 
I— pipelines.py 
上 -一 一 settings.py 
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上 一 一 spiders 


L— init .py 














pipelines.py 和 items.py 文件 管理 抓 取 到 的 数据 的 存储 和 处 理 方式 ， 稍 后 我 们 会 在 8.3.4 























节 和 8.5 节 讨 论 这 两 个 文件 。 在 settings.py 文件 中 ， 我 们 设置 spiders 文件 夹 定义 的 每 只 蜂 

















蛛 《〈 或 肘 虫 ) 的 参数 ， 蜂 蛛 将 按照 这 些 设 置 执行 爬 取 任务 。 下 面 两 节 ， 我 们 将 讨论 疏 取 应 




















8.3.1 








的 主要 参数 和 蜘蛛 的 实现 。 


Scrapy 的 设置 





T settings.py 文件 设置 Scrapy 项 目的 每 只 蜂 蛛 爬 取 页 面 时 用 到 的 所 有 参数 。 主 要 参数 如 下 。 
DEPTH LIMIT: EGRE, M% 1 个 URL 开始 , 往 下 礁 取 多 少 层 页 面 。 默 认为 0， 




















表示 没有 深度 限制 。 
LOG ENABLED: 执行 仅 取 时 ， 是 否 将 日 志 输 出 到 终端 ， 默 认为 





Z 


























True. 


ITEM PIPELINES = ('scrapy. spider.pipelines.ReviewPipeline': 1000,): pipeline 函数 

















的 路 径 ， 该 函数 负责 处 理 从 网 页 抽取 出 来 的 数据 。 




















CONCURRENT ITEMS = 200: pipeline 中 并 行 处 理 的 item" 的 数量 。 




















CONCURRENT REQUESTS = 5000: Scrapy 处 理 的 最 大 并 行 请 求 数 。 


























CONCURRENT REQUESTS PER DOMAIN = 3000: Scrapy 处 到 
大 并 行 请 求 数 。 








的 单个 域名 的 最 





深度 越 深 ， 疏 取 页 面 越 多 ， 疏 取 时 间 就 越 长 。 为 了 加 快 疏 取 速度 ， 上 面 最 后 三 个 参数 
可 以 使 用 较 大 的 值 。 我 们 的 应 用 spiders 文件 夹 ) 使 用 两 只 蜘蛛 : 一 只 从 影评 URL 抽取 数 
据 (movie link results.py )， 另 一 只 生成 所 有 链接 到 初始 影评 URL 


(recursive link results.py )。 




























































































8.3.2 Scraper 


movie link results.py 的 scraper 代码 如 下 : 


from newspaper import Article 


from urlparse import urlparse 


from scrapy.selector import Selector 





(D item, 

















于 存储 抓 取 数据 的 简单 容器 。 详 见 官方 文档 https://doc.scrapy.org/en/latest/topics/items.html。 
































的 网 页 链接 图 





一 一 译 者 注 
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from scrapy import Spider 

from scrapy.spiders import BaseSpider,CrawlSpider, Rule 
from scrapy.http import Request 

from scrapy spider import settings 

from scrapy spider.items import PageItem,SearchItem 


unwanted domains - ['youtube.com','www.youtube.com'] 
from nltk.corpus import stopwords 
stopwords = set(stopwords.words('english')) 


def CheckQueryinReview (keywords ,title,content): 

content list = map (lambda x:x.lower(),content.split(' ')) 
title list = map (lambda x:x.lower(),title.split(' ')) 
words = content_list+title_list 
for k in keywords: 

if k in words: 

return True 

return False 


class Search (Spider): 
name = 'scrapy_spider_reviews' 


def init (self,url_list,search_key) :#specified by -a 
self.search_key = search_key 
self.keywords = [w.lower() for w in search_key.split(" ") if w 
not in stopwords] 
self.start urls =url_list.split(',') 
super(Search, self). init (url list) 


def start requests (self): 
for url in self.start urls: 
yield Request (url=url, callback-self.parse site,dont 
filter-True) 


def parse site(self, response): 
## Get the selector for xpath parsing or from newspaper 


def crop emptyel (arr): 
return [u for u in arr if u!-' '] 


domain = urlparse (response.url).hostname 


a = Article (response.url) 
a.download() 
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a.parse() 
title = a.title.encode('ascii','ignore') .replace('\n','') 
sel = Selector (response) 
if title==None: 
title = sel.xpath('//title/text()').extract() 
if len(title)>0: 
title = title[0].encode('utf-8').strip().lower() 


content = a.text.encode('ascii','ignore').replace('M','") 
if content == None: 
content = 'none' 


if len(crop_emptyel (sel.xpath ('//div//article//p/text()'). 
extract ()))>1: 
contents = crop emptyel(sel.xpath('//div//article//p/ 
text()').extract()) 
print 'divarticle' 


elif len(crop_emptyel (sel.xpath('/html/head/metal[@ 
name="description"]/@content').extract()))>0: 
contents = crop emptyel (sel.xpath('/html/head/meta[@ 
name="description"]/@content').extract()) 
content = ' '.join([c.encode('utf-8') for c in contents]). 
strip().lower() 


#get search item 

search item = SearchItem.django model.objects.get(term-self. 
search key) 

#save item 

if not Pageltem.django model.objects.filter(url-zresponse.url). 
exists(): 

if len(content) > 0: 
if CheckQueryinReview (self.keywords,title,content): 
if domain not in unwanted domains: 
newpage = PageItem() 


newpage['searchterm'] = search item 
newpage['title'] - title 
newpage['content'] - content 
newpage['url'] - response.url 
newpage['depth'] = 0 
newpage['review'] = True 


#newpage. save () 
return newpage 
else: 
return null 
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由 代码 可 见 ，Search 类 继承 自 Scrapy 库 的 Spider 类 。 我 们 编 


标准 方法 。 





e init :spider 的 构造 器 , 我们 需要 定义 start. urls 列表 , 以 存 


8.3 Scrapy 的 配置 


和 情感 分 析 应 用 代码 ”193 




















写 了 以 下 方法 覆盖 原 有 的 

















诸 待 抽取 影评 的 URL. 














此 外 ， 我 们 还 在 


























中 定义 了 search key 和 keywords 变量 ， 
名 称 作为 查询 词 查询 影评 数据 时 ， 将 会 用 到 这 些 信息 。 


start requests: 调用 spider 类 ， 将 触发 该 函数 ， 它 指定 对 start. urls 列表 的 每 个 URL 











搜索 引擎 API 以 电影 





执行 什么 操作 ; 对 每 个 URL, 调 用 我 们 自 定义 的 parse. site 函数 (而 不 是 默认 的 parse 


函数 )。 


parse site: 我 们 


newspaper JÆ (sudo pip 





败 ， 我 们 直接 用 
于 引入 噪音 
EUER 
保 抽 有 



































: 








函数 〈 见 下 节 )， 


(每 条 规则 
区 效果 ， 我 们 选择 
了 方法 能 从 这 些 网 站 和 
青 参见 GitHub 仓库 代码 文 





自 定义 的 函数 ， 用 来 解 





FARA URL 所 对 应 页 面 的 数据 。 我 们 用 























install newspaper) f 




















] sel .xpath 命令 定义 )。 为 了 保 订 









































件 )。 然后, 我 们 














将 抽取 到 























于 每 个 网 页 的 内 容 或 标题 。 





打开 终端 ， 进 入 scrapy_spider 文件 夹 ， 输 入 以 下 命令 ， 


pa 
ri 








几 个 比较 知名 的 域名 Crottentomatoes, cnn 等 ) 做 实验 ， 确 
取 内 容 (上 述 代码 没有 给 出 所 有 
相应 的 Scrapy item 和 ReviewPipeline 
的 数据 保存 到 Django model Pageltem 中 。 


CheckQueryinReview: 我 们 自 定 义 的 函数 ， 检 查 电影 名 称 〈 来 自 查 询 词 ) 





取 电 影 名 称 和 文本 内 容 ， 如 果 抽 取 失 
自 定义 的 规则 ， 解 析 HTML 文件 ， 避 免 











! 取 到 不 相关 的 标签 以 至 
FE 自 定义 的 规则 能 达到 较 好 
































( 取 规则 , 更 多 规则 还 




















Et 
AE 





否 存在 


ZII: 


scrapy crawl scrapy_spider_reviews -a url_list=listname -a search_ 


key=keyname 


8.9.3 Pipeline 


Pipeline 定义 蜘蛛 抓 





H 








返 





取 到 新 页 面 之 后 ， 对 它 进行 什么 操作 。 

















上 面 代码 的 parse_site 函数 




















Pageltem 对 象 ， 它 触发 以 下 Pipeline 对 象 (pipelines.py ): 


class ReviewPipeline (object): 


def process item(self, item, spider): 


dif spider.name == 'scrapy spider reviews ' :#not working 


item.save() 


return 


item 





该 类 保存 每 个 item. Cspider 术语 ， 表 示 一 个 新 的 页 面 )。 
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8.3.4 Eh 


本 章 开 头 的 综述 部 分 提 到 过 ， 我 们 存储 了 影评 URL 所 有 链接 到 的 页 面 之 后 ， 再 用 
PageRank 算法 计算 影评 的 相关 性 。 扑 虫 recursive link results.py 执行 如 下 操作 : 



























































T 

















TT 





#from scrapy.spider import Spider 

from scrapy.selector import Selector 

from scrapy.contrib.spiders import CrawlSpider, Rule 
from scrapy.linkextractors import LinkExtractor 

from scrapy.http import Request 


from scrapy spider.items import PageItem,LinkItem,SearchItem 


class Search(CrawlSpider): 
name = 'scrapy spider recursive' 


def init (self,url list,search id):ispecified by -a 


#REMARK is allowed domains is not set then ALL are allowed!!! 
self.start urls = url list.split(',") 
self.search id - int(search id) 


#allow any link but the ones with different font 
size(repetitions) 
self.rules - ( 


Rule(LinkExtractor(allow-(),deny-('fontSize-*','infoid-*','SortBy-z*', 
),unique-True), callback-'parse item', follow-True), 


) 


super(Search, self). init (url list) 


def parse item(self, response): 
sel = Selector(response) 


## Get meta info from website 
title = sel.xpath('//title/text()').extract() 
if len(title)»0: 

title = title[0].encode('utf-8') 


contents = sel.xpath('/html/head/meta [üname-"description"]/G 
content').extract() 


content = ' '.join([c.encode('utf-8') for c in contents]).strip() 


fromurl = response.request.headers['Referer'] 
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tourl = response.url 


depth = response.request.meta['depth'] 


#get search item 


search item = SearchItem.django model.objects.get(id-self.search id) 


#newpage 


if 


finish here 


not Pageltem.django model.objects.filter(url-tourl).exists(): 
newpage - PageItem() 

newpage['searchterm'] = search item 

newpage['title'] - title 

newpage['content'] - content 

newpage['url'] - tourl 

newpage['depth'] = depth 

newpage .save ()#cant use pipeline cause the execution can 


#get from id,to id 


from page = PageItem.django model.objects.get(url-fromurl) 


from id = from page.id 


to page - Pageltem.django model.objects.get(url-tourl) 


to. 


id = to page.id 


#newlink 


if 
filter (to i 


Search 类 继承 自 Scrapy 库 的 CrawlSpider 类 。 我 们 编写 了 下 面 两 个 标准 方法 ， 履 盖 原 


not LinkItem.django model.objects.filter(from id-from id). 
d=to id).exists(): 

newlink - LinkItem() 

newlink['searchterm'] = search item 

newlink['from id'] = from id 

newlink['to id'] = to id 


newlink.save() 


























来 的 标准 方法 〈 同 前 面 的 Spider 25). 


e int : 




















Search 类 的 构造 器 。start_urls 参数 指定 开始 爬 取 的 URL， 在 达到 我 们 为 











参数 DEPTH LIMIT 设 定 的 值 之 前 , fendi URL fk FER. 参数 rules 设置 允 
许 / 拒 绝 爬 取 的 URL 类 型 〈 该 例 ， 字 体 大 小 不 同 ， 但 内 容 相同 的 页 面 不 重复 爬 取 )。 








我 们 还 要 





















































$ 


定义 处 理 每 个 抓 取 到 的 页 面 的 函数 (parse item)。 我 们 还 定义 了 search id 


























ABE, 以 





便 在 其 他 数据 中 存储 查询 的 ID. 














e parse item: 自 定 义 的 函数 ， 将 每 个 检索 到 的 网 页 的 重要 数据 存储 下 来 。 为 每 个 页 
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面 创建 一 个 Django Page model 〈 见 下 节 )， 它 存储 电影 名 称 和 影评 内 容 〈 用 xpath 
HTML 解析 器 )。 为 了 执行 PageRank 算法 ， 每 个 网 页 链接 到 的 页 面 和 每 个 网 页 的 


ID， 用 相应 的 Scrapy item 保存 为 Link model〈 见 后 面 几 节 )。 
打开 






























































终端 ， 进 入 scrapy spider 文件 夹 ， 输 入 以 下 命令 ， 启 动 爬 虫 : 








scrapy crawl scrapy spider recursive -a url list-listname -a search 


id=keyname 


8.4 Django model 











文件 














世 虫 采集 的 数据 需要 存储 到 数据 库 。 在 Django P, AERJ model, Œ models.py 
里 定义 (位 于 pages 文件 夹 )。 请 在 models.py 文件 里 输入 以 下 代码 : 









































from django.db import models 


from django.conf import settings 


from django.utils.translation import ugettext lazy as _ 


class SearchTerm(models Model): 


term = models.CharField( ('search'), max length-255) 
num reviews = models.IntegerField(null-True,default-0) 
#display term on admin panel 
def | unicode . (self): 

return self.term 


class Page (models.Model): 


searchterm = models.ForeignKey (SearchTerm, related name-'pages',null 


-True,blank-True) 


url = models.URLField( ('url'), default-z'', blank-True) 

title = models.CharField( ('name'), max length-255) 

depth = models.IntegerField(null-True,default--1) 

html = models.TextField( ('html'),blank-True, default-'') 
review = models.BooleanField (default-False) 

old rank = models.FloatField(null-True,default-0) 

new rank = models.FloatField(null-True,default-1) 

content = models.TextField( ('content'),blank-True, default-'') 


sentiment = models.IntegerField(null-True,default-100) 


class Link (models.Model): 


searchterm = models.ForeignKey (SearchTerm, related name-'links',null 
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-True,blank-True) 


from id - models.IntegerField (null-True) 


to id = models.IntegerField (null-True 


























) 
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用 户 在 影评 情感 分 析 应 用 的 首页 输入 的 每 个 电影 名 称 存储 在 SearchTerm model 中 ， 
RL 


个 网 页 的 数据 存储 在 Page model 中 。 除 了 记录 存储 内 容 的 字段 (HTML、 电 影 名 称 、U 


























和 影评 内 容 )， 还 记录 影评 的 情感 倾向 和 链接 图 网 络 的 深度 《此 外 ,我 们 还 用 一 个 布尔 值 表 





























示 网 页 是 影评 页 面 还 是 一 个 简单 的 、 带 外 链 的 页 面 )。Link model 存储 页 面 之 间 的 链接 关系 ， 
PageRank 算法 用 它 计 算 影 评 页 面 之 间 的 相关 性 。 Page model 和 Link model 均 通过 外 键 指向 
































相应 的 SearchTerm。 照 旧 执 行 以 下 命令 ， 按 照 model 4 





python manage.py makemigrations 
python manage.py migrate 























E px X d 


HA: 








为 了 填充 这 些 Django model， 我 们 需要 实现 Scrapy 和 Django 之 间 的 交互 ， 具 体 方法 


Fi 


8.5 整合 Django 和 Scrapy 





我 们 为 了 保持 路 径 的 简洁 ， 便 于 调用 ， 删 除了 scrapy_spider 文件 夹 。 因 此 ， 在 
movie reviews analyzer app 文件 夹 中 ，webmining_server 文件 夹 跟 scrapy_spider 文件 夹 位 








于 同一 层级 : 


上 六 一 db.sqlite3 
上 一 scrapy.cfg 
上 一 scrapy spider 
| [—: i 

| |— spiders 
| | 


L—— webmining server 


在 Scrapy 的 settings.py 文件 里 设置 Django 的 路 径 





# Setting up django's project full path. 
import sys 


sys.path.insert(0, BASE DIR*'/webmining server') 


# Setting up django's settings module name. 
os.environ['DJANGO SETTINGS MODULE'] = 'webmining server.settings' 
#import django to load models (otherwise AppRegistryNotReady: Models 
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aren't loaded yet): 
import django 
django.setup() 














为 了 实现 从 Scrapy 管理 Django， 我 们 需要 安装 下 面 这 个 库 : 





sudo pip install scrapy-djangoitem 

















在 items.py 文件 ， 编 写 Django model 和 Scrapy 之 间 的 对 接 方式 : 


from scrapy djangoitem import DjangoItem 
from pages.models import Page,Link,SearchTerm 


class SearchItem(DjangoItem): 
django model = SearchTerm 

class PageItem(DjangoItem): 
django model - Page 

class LinkItem(DjangoItem): 
django model - Link 





上 述 代 码 ， 每 个 类 继承 自 DjangoItem 类 ， 因 此 它们 自动 跟 用 django model 变量 



























































声明 的 、 
原始 的 Django model 联系 起 来 。Scrapy 项 目 至 此 告 一 段落 Scrapy 抓 取 来 的 数据 如 何 处 理 ， 


我 们 还 没 讲 。 我 们 接 下 来 继续 讨论 处 理 数据 用 到 的 Django 代码 和 管理 应 用 的 Django 命令 。 














851 命令 (情感 分 析 模 型 和 删除 查询 结 采 ) 














c 











该 应 用 需要 管理 

































































些 操作 ， 这 些 操作 不 允许 普通 用 户 执行 ， 例 如 定义 情感 分 析 模 型 、 


删除 电影 查询 结果 ， 以 便 重 新 进行 计算 ， 而 不 是 从 内 存 检索 现 有 数据 。 下 面 几 节 ， 我 们 将 

















解释 如 何 实现 执行 这 些 操作 的 命令 。 
8.5.2 ”情感 分 析 模 型 加 载 占 



































该 应 用 的 最 终 目标 是 ， 判 断 影 评 的 情感 倾向 (积极 或 消极 )。 为 了 实现 这 一 目标 ， en 





















































必须 使 用 外 部 数据 搭建 情感 分 析 器 ， 然 后 将 其 存储 在 内 存 〈 绥 存 ) 供 每 次 查询 使 用 ， 


是 load sentimentclassifier.py 命令 要 完成 的 操作 : 



































import nltk.classify.util, nltk.metrics 

from nltk.classify import NaiveBayesClassifier 
from nltk.corpus import movie reviews 

from nltk.corpus import stopwords 
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from nltk.collocations import BigramCollocationFinder 

from nltk.metrics import BigramAssocMeasures 

from nltk.probability import FreqDist, ConditionalFreqDist 
import collections 

from django.core.management.base import BaseCommand, CommandError 
from optparse import make option 

from django.core.cache import cache 


stopwords = set(stopwords.words('english')) 
method selfeatures = 'best words features' 


class Command (BaseCommand) : 
option list = BaseCommand.option list + ( 
make option('-n', '--num bestwords', 
dest-'num bestwords', type-'int', 
action-'store', 
help-('number of words with high 


information')),) 


def handle(self, *args, **options): 
num bestwords - options['num bestwords'] 
self.bestwords = self.GetHighInformationWordsChi (num bestwords) 
clf = self.train clf (method selfeatures) 
cache.set('clf',clf) 
cache.set('bestwords',self.bestwords) 























文件 开始 ,method_selfeatures 变量 设置 特征 选择 方法 〈 该 例 用 影评 中 的 词语 作为 特征 ; 











更 多 细节 见 第 4 章 )， 用 选择 的 特征 训练 分 类 器 train_clf。 参 数 num bestwords 表示 最 佳 词 


Lu 



































语 (特征) 的 最 大 数量 。 然 后 ， 将 分 类 器 和 最 佳 特征 Cbestwords) 存储 到 缓存 ， 便 于 情感 
分 析 应 用 使 用 〈 用 cache 模块 )。 分 类 器 和 选择 最 佳 词语 〈 特 征 ) 的 方法 如 下 所 示 : 




















def train clf (method): 
negidxs = movie reviews.fileids('neg'!) 


posidxs - movie reviews.fileids('pos') 
if method--'stopword filtered words features': 
negfeatures = [(stopword filtered words features (movie 
reviews.words(fileids-[file])), 'neg') for file in negidxs] 
posfeatures = [(stopword filtered words features (movie 
reviews.words(fileids-[file])), 'pos') for file in posidxs] 
elif method--'best words features': 
negfeatures = [(best words features (movie reviews. 
words(fileids-[file])), 'neg') for file in negidxs] 
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posfeatures = [(best words features (movie reviews. 
words(fileids-[file])), 'pos') for file in posidxs] 
elif method--'best bigrams words features': 


negfeatures = [(best bigrams words features (movie reviews. 
words (fileids-[file])), 'neg') for file in negidxs] 
posfeatures = [(best bigrams words features (movie reviews. 


words (fileids-[file])), 'pos') for file in posidxs] 


trainfeatures = negfeatures + posfeatures 
clf = NaiveBayesClassifier.train(trainfeatures) 
return clf 


def stopword filtered words features (self,words): 
return dict([(word, True) for word in words if word not in 


stopwords]) 


#eliminate Low Information Features 

def GetHighInformationWordsChi (self,num bestwords): 
word fd = FreqDist() 
label word fd = ConditionalFreqDist () 


for word in movie reviews.words(categories-['pos']): 
word fd[word.lower()] +=1 
label word fd['pos'][word.lower()] *-1 


for word in movie reviews.words(categories-['neg']): 
word fd[word.lower()] +=1 
label word fd['neg'][word.lower()] *-1 


pos word count - label word fd['pos'].N() 
neg word count - label word fd['neg'].N() 
total word count = pos word count + neg word count 


word scores = {} 
for word, freq in word fd.iteritems(): 
pos score - BigramAssocMeasures.chi sq(label word fd['pos'] 
[word], 
(freq, pos word count), total word count) 
neg score - BigramAssocMeasures.chi sq(label word fd['neg'] 
[word], 
(freq, neg word count), total word count) 
word scores[word] = pos score + neg score 


best = sorted(word scores.iteritems(), key-lambda (w,s): s, 
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reverse-True) [:num bestwords] 
bestwords - set([w for w, s in best]) 
return bestwords 


def best words features (self,words): 
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return dict([(word, True) for word in words if word in self. 


bestwords]) 


def best bigrams word features (self,words, 


measure-BigramAssocMeasures.chi sq, nbigrams-200): 


bigram finder = BigramCollocationFinder.from words (words) 


bigrams = bigram finder.nbest(measure, nbigrams) 


d = dict([(bigram, True) for bigram in bigrams]) 


d.update (best words features (words)) 


return d 


上 述 代码 实现 了 三 种 选择 最 佳 词语 的 方法 。 








T 














e stopword filtered words features: 用 NLTK (自然 语言 处 理工 具 集 ) 的 停 用 词 表 ， 








删除 停 用 词 ， 将 剩余 单词 作为 最 相关 词语 。 


























e best words features: 用 了 ?检验 方法 (NLTK 库 ) 选择 与 积极 影评 或 消极 影评 最 相 




















关 的 词语 (更 多 细节 见 第 4 章 )。 





e best bigrams word features: H X’ RANE (NLTK Æ) 从 词语 组 合 中 ， 选 择 信息 


量 最 大 的 前 200 个 二 元 组 (更 多 细节 见 第 4 Si». 


四 
































我 们 用 朴素 贝 叶 斯 分 类 器 〈 见 第 3 章 ) 和 NLTK.corpus 的 movie reviews 已 标注 的 文本 























《积极 、 消 极 情感 ) 作为 训练 语 料 。 语 料 的 下 载 方法 是 ， 打 
从 corpus 下 载 movie reviews 数据 : 





nltk.download()--» corpora/movie reviews corpus^ 


8.5.3 ”删除 已 执行 过 的 查询 











Python shell， 输 入 以 下 代码 








由 于 我 们 可 以 定义 不 同 的 参数 〈 比 如 特征 选择 方法 、 最 但 














词语 的 数量 等 )， 我 们 也 许 想 




















(D HE Python shell 执行 nltk.download0 命 令 ( 如 果 还 没有 安装 nltk, 请 在 终端 输入 pip install nltk 安装 nltk 库 )。 在 打开 的 NLTK 
Downloader 窗口 的 Corpora 选项 卡 下 选中 movie reviews， 单 击 窗 口 左下 方 的 Download 按钮 下 载 。 笔 者 执行 完 nltk.download() 









































命令 后 ， 显 示 movie reviews 已 安装 ， 即 Status 栏 显示 “installed”。 一 一 译 者 注 
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用 不 同 的 参数 值 ， 再 次 分 析 影 评 和 存储 分 析 结 果 。 这 时 就 要 用 到 delete query 命令 ， 代 码 
如 下 : 























from pages.models import Link,Page,SearchTerm 
from django.core.management .base import BaseCommand, CommandError 
from optparse import make option 


class Command (BaseCommand) : 
option list = BaseCommand.option list + ( 
make option('-s', '--searchid', 
dest-'searchid', type='int', 
action='store', 
help=('id of the search term to delete')),) 


def handle (self, *args, **options): 
searchid = options['searchid'] 
if searchid == None: 
print "please specify searchid: python manage.py 


--searchid=--" 
#list 
for sobj in SearchTerm.objects.all(): 
print 'id:',sobj.id," term:",sobj.term 
else: 


print 'delete...' 

search obj - SearchTerm.objects.get(id-searchid) 
pages - search obj.pages.all() 

pages.delete() 

links - search obj.links.all() 

links.delete() 

search obj.delete () 























如 果 运 行 上 述 命令 时 没有 指定 searchid 〈 查 询 词 的 ID )， 将 显示 所 有 的 查询 词 及 其 ID。 
我 们 可 以 使 用 下 面 命令 指定 查询 词 并 删除 : 




















python manage.py delete query --searchid-VALUE 


























我 们 可 以 使 用 缓存 的 情感 分 析 模 型 向 用 户 展 示 给 定 电影 的 情感 倾向 ， 详 见 下 一 节 。 
85.4 影评 情感 分 析 器 一 一 Django view 和 HTML 代码 














本 章 讨论 的 大 多 数 代 码 〈 命 令 、Bing 搜索 引擎 、Scrapy 和 Django model? 是 views.py 
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文件 analyzer 函数 的 代码 ， 它 们 驱动 我 们 在 8.1 节 展 示 的 首页 (在 urls.py 文件 指定 首页 的 


URL 7Jj(r^$',webmining server.views.analyzer') ): 





def analyzer(request): 
context = {} 


if request.method == 'POST': 
post data - request.POST 
query = post data.get('query', None) 
if query: 
return redirect('$s?$s' $ (reverse('webmining server.views. 
analyzer'), 
urllib.urlencode(('q': query)))) 
elif request.method -- 'GET': 
get data = request.GET 
query - get data.get('q') 
if not query: 
return render to response( 
'movie reviews/home.html', RequestContext (request, 
context)) 


context['query'] = query 
stripped query - query.strip().lower() 
urls = [] 


if test mode: 

urls = parse bing results() 
else: 

urls = bing api(stripped query) 


if len(urls)-- 
return render to response( 
'movie reviews/noreviewsfound.html', 
RequestContext(request, context)) 
if not SearchTerm.objects.filter(term-zstripped query).exists(): 
S = SearchTerm(term-stripped query) 


s.save() 
try: 
#scrape 
cmd = 'cd ../scrapy_spider & scrapy crawl scrapy_spider_ 
reviews -a url_list=%s -a search_key=%s' %('\"'+str(','.join (urls [:num_ 
reviews]) .encode ('utf-8'))+'\"','\"'+str (stripped query)+'\"') 
os . system (cmd) 
except: 
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print 'error!' 
s.delete() 
else: 
dcollect the pages already scraped 
S = SearchTerm.objects.get(term-stripped query) 


#calc num pages 
pages = s.pages.all().filter(review-True) 
if len(pages) -- 
s.delete() 
return render to response( 
'movie reviews/noreviewsfound.html', 
RequestContext(request, context)) 


s.num reviews - len(pages) 
s.save() 


context['searchterm id'] - int(s.id) 


#train classifier with nltk 
def train clf (method): 


def stopword filtered words features (words): 


#Eliminate Low Information Features 
def GetHighInformationWordsChi (num bestwords): 


bestwords - cache.get('bestwords') 
if bestwords -- None: 

bestwords - GetHighInformationWordsChi (num bestwords) 
def best words features (words): 


def best bigrams words features (words, 
measure-BigramAssocMeasures.chi sq, nbigrams-200): 


clf = cache.get('clf') 
if clf -- None: 
clf = train clf (method selfeatures) 


cntpos 0 
cntneg = 0 
for p in pages: 
words = p.content.split(" ") 
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feats = best words features (words)#bigram word 
features (words) #stopword filtered word feats (words) 

Sprint feats 

str sent - clf.classify(feats) 


if str sent == 'pos': 
p.sentiment - 1 
cntpos +=1 
else: 
p.sentiment - -1 
cntneg +=1 
p.save() 
context['reviews classified'] - len(pages) 
context['positive count'] - cntpos 
context['negative count'] - cntneg 
context['classified information'] = True 


return render to response( 
'movie reviews/home.html', RequestContext(request, 











8 
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的 谷歌 饼 图 代码 生成 饼 图 : 

















<h2 align = Center»Movie Reviews Sentiment Analysis</h2> 


«div class="row"> 


WIEN FE 

















context) ) 





用 户 输 入 的 电影 名 称 先 存储 到 query 变量 ， 然 后 程序 将 其 发 送 给 bing api 函数， 去 采 
集 影评 的 URL。 接 着 调用 Scrapy， 对 影评 URL 执行 抓 取 操 作 ， 找 到 影评 的 文本 内 容 ， 然 
后 用 从 缓存 检索 到 的 clf 分 类 器 模型 和 选 定 的 信息 量 最 大 的 词语 (bestwords) 执行 分 类 《如 
果 缓 存 为 室 ， 同 一 模型 将 再 生成 一 次 )。 影 评 的 情感 借 向 预测 结果 (positive_counts、 
negative counts 和 reviews classified) 发 送 给 home.html (templates XFX). HW 




















<p align = Center»«strong»Reviews Classified : (( reviews 


classified }}</strong></p> 


<p align = Center»«strong»Positive Reviews : {{ positive count 
))«/strong»«/p» 
<p align = Center»«strong» Negative Reviews : (( negative 


count ))«/strong»«/p» 
«/div» 
«section» 


«script type-"text/javascript" src-e"https://www.google.com/ 


jsapi"»«/script» 
«script type-"text/javascript"» 


google.load("visualization", "1", (packages:["corechart"]]); 


google.setOnLoadCallback (drawChart); 
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function drawChart() 
var data = google.visualization.arrayToDataTable([ 
['Sentiment', 'Number'], 
['Positive', ( positive count }}], 
['Negative', ( negative count }}] 
1); 
var options = { title: 'Sentiment Pie Chart'); 
var chart = new google.visualization.PieChart (document. 
getElementById('piechart')); 





chart.draw(data, options); 
} 
</script> 
<p align ="Center" 





id="piechart" 
500px;display: block; margin: 
</div> 


函数 drawChart 调用 谷歌 的 可 视 化 函数 PieChart， 该 
示 影 评 的 情感 倾向 统计 结果 〈 见 SO 节 )， 首 页 下 方 
PageRank 值 ， 该 功能 背后 的 代码 下 节 讨 论 。 












































Ke 月 





style="width: 
0 auto;text-align: 


900px; height: 
center;" ></p> 


函数 接收 数据 〈 积 极 和 消极 影评 的 





o HTML 代码 和 Django view 交互 方式 的 更 多 细节 ， 见 6.2.2 节 。 首 页 展 

















的 两 个 链接 可 计算 抓 取 到 影评 的 


8.6 PageRank: Django view 和 算法 实现 

















我 们 在 情感 分 析 应 用 中 实现 了 PageRank $ 











ik (4.1.3 节 ) 为 线 上 影 记 


的 重要 性 排 











序 。pgrank.py 文件 位 于 webmining server/pgrank 文人 
代码 如 下 : 


from pages.models import Page,SearchTerm 


num iterations 100000 
eps-0.0001 
D 0.85 


def pgrank(searchid): 


s 
links S.links.all() 
from idxs 


[i.from id for i in links ] 
# Find the idxs that receive page rank 


[1 


links received - 


夹 ， 它 实现 了 PageRank 算法 ， 


SearchTerm.objects.get(id-int (searchid)) 
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to idxs - [] 
for 1 in links: 
from id = l.from id 
to id - l.to id 
if from id not in from idxs: continue 
if to id not in from idxs: continue 
links received.append([from id,to id]) 
if to id not in to idxs: to idxs.append(to id) 


pages = s.pages.all() 

prev ranks - dict() 

for node in from idxs: 
ptmp = Page.objects.get(id-node) 
prev ranks[node] - ptmp.old rank 


conv-1. 
cnt=0 
while conv>eps or cnt<num iterations: 
next ranks = dict() 
total - 0.0 
for (node,old rank) in prev ranks.items(): 
total += old rank 
next ranks[node] = 0.0 


#find the outbound links and send the pagerank down to each of 
them 
for (node, old rank) in prev ranks.items(): 
give idxs - [] 
for (from id, to id) in links received: 
if from id !- node: continue 
if to id not in to idxs: continue 
give idxs.append(to id) 
if (len(give idxs) < 1): continue 
amount - D*old rank/len(give idxs) 
for id in give idxs: 
next ranks[id] += amount 
tot = 0 
for (node,next rank) in next ranks.items(): 
tot += next rank 
const = (1-D)/ len(next ranks) 


for node in next ranks: 
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for 


for 


next ranks[node] += const 


tot = 0 
for (node,old rank) in next ranks.items(): 
tot += next rank 


difftot = 0 

for (node, old rank) in prev ranks.items(): 
new rank - next ranks [node] 
diff = abs(old rank-new rank) 
difftot += diff 

conv- difftot/len(prev ranks) 

cnt+=1 

prev_ranks = next_ranks 


(id,new rank) in next ranks.items(): 
ptmp = Page.objects.get(id-id) 
url = ptmp.url 


(id,new rank) in next ranks.items(): 
ptmp - Page.objects.get(id-id) 
ptmp.old rank - ptmp.new rank 
ptmp.new rank = new rank 

ptmp.save () 














上 述 代码 取 到 给 定 SearchItem 对 象 对 应 的 所 有 链接 ， 实 现 了 计算 t 时 刻 网 页 i 的 
PageRank 值 的 方法 ，P(i) 通 过 递归 求解 下 式 得 到 : 


ZN 


否则 o. 














N 
+ DY A,P(), , Vibes N 


j=l 


P(i), = 





(1- D) 
N 


1 








H+， 入 是 总 页 面 的 数量 ， 如 果 网 页 7 指向 网 页 。 4 = 二- 《为 网 页 /的 外 链 数 ); 


J 





参数 D 为 所 谓 的 阻尼 系数 “上述 代码 将 其 设置 为 0.85)， 表 示 按 照 转 移 矩 阵 4 





























进行 转移 的 概率 。 以 迭代 的 方式 计算 上 述 等 式 ， 直 到 收敛 参数 《convergence parameter) eps 


满足 要 求 或 达到 最 大 友 代 次 数 num iterations。 首 页 影评 情感 分 析 结 果 展 示 完 成 后 ， 单 击 首 
页 下 


~ 




















































































































下 方 的 “scrape and calculate page rank (may take a long time)”2 或 “ Calitate page rank” ® 
调用 该 算法 。 这 两 个 链接 指向 views.py 文件 的 pgrank view 函数 (通过 urls.py 文件 的 
久 为 “N is 0”， 实 系 错误 。 一 一 译 者 注 
思 是 抓 取 和 计算 PageRank 值 〈“ 也 许 需要 较 长 时 间 ) 。 一 一 译 者 注 
时 是 计算 PageRank 值 。 一 一 译 者 注 
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url(r'^pg-rank/(?P\d+)/''webmining_server.views.pgrank_view', name-'pgrank view")): 


def pgrank view(request,pk): 
context = {} 
get_data = request.GET 
scrape = get data.get('scrape','False') 
s = SearchTerm.objects.get(id-pk) 


if scrape == 'True': 
pages = s.pages.all().filter(review-True) 
urls = [] 
for u in pages: 


urls.append(u.url) 


#crawl 
cmd = 'cd ../scrapy spider & scrapy crawl scrapy spider recursive 
-a url list-$s -a search id-$s' $('NV''4str(','.join(urls[:]).encode('utf- 


8'))*'N"',"N''-str(pk)t'NV"") 
os.system(cmd) 


links = s.links.all() 
if len(links)--0: 
context['no links'] - True 
return render to response( 
'movie reviews/pg-rank.html', RequestContext (request, 
context)) 
#calc pgranks 
pgrank (pk) 
#load pgranks in descending order of pagerank 
pages ordered = s.pages.all().filter(review-True).order by('-new 
rank') 


context['pages'] = pages ordered 


return render to response( 


'movie reviews/pg-rank.html', RequestContext (request, context)) 























上 述 代 码 调用 爬虫 ， 采 集 影 评 链接 到 的 网 页 ， 用 我 们 刚刚 讨论 的 代码 计算 PageRank 
值 。 然 后 ， 将 PageRank 值 展 示 到 pg-rank.html 页 面 ( 按 PageRank 值 降序 排列 )， 见 8.1 节 。 
因为 这 个 函数 处 理 数据 时 间 较 长 〈 谍 取 成 二 上 万 个 页 面 )， 我 们 编写 run_scrapelinks.py 命令 ， 
运行 Scrapy 息 虫 (欢迎 读者 将 其 作为 练习 ， 自 行 阅读 或 修改 这 段 代 码 )。 
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8.7 管理 后 台 和 API 

本 章 最 后 一 部 分 
索 该 情感 分 ) 析 应 用 的 相关 数据 。 
SearchTerm 和 Page model 的 数据 : 





from django.contrib import 


， 我 们 简要 介绍 
我 们 可 以 在 admin.py 文件 设置 两 个 管理 界面 ， 

















model 可 能 的 后 台 管 理 操作 和 API 实现 方法 ， 以 便 检 


以 便 查 看 


T 



































admin 


from django markdown.admin import MarkdownField, AdminMarkdownWidget 
from pages.models import SearchTerm,Page,Link 


class SearchTermAdmin (admin.ModelAdmin): 


formfield overrides 
AdminMarkdownWidget]]) 

list display - ['id', 

ordering - ['-id'] 


(MarkdownField: 


'term', 


('widget': 


'num reviews'] 


class PageAdmin (admin.ModelAdmin): 


formfield overrides 
AdminMarkdownWidget]]) 

list display - ['id', 

ordering - ['-id' 


(MarkdownField: 


'searchterm', 


('widget': 


'url','title','content'] 


,'-new rank'] 


admin.site.register (SearchTerm,SearchTermAdmin) 
admin.site.register (Page,PageAdmin) 


admin.site.register (Link) 


SearchTermAdmin 和 PageAdmin 类 按照 ID 升序 展示 对 象 (PageAdmin 同时 按照 


Para 














new rank HET). Page model Jc & 





Django administration 


里 界面 见 图 8.4: 





Welcome, admin. Change password / Log out 





Select page to change 
E Go 


[ Searchterm Ur 


4893 batman vs superman dawn of justice. 


horror-movies- 326 


4892 batman vs superman dawn of justice. 
lucas-vs-kzzy 


4891 batman vs superman dawn of justice. 





Mtp /www joblo.com hollywood -celebribes (gossip. 


http: / /www joblo.comhollywood-celebrities /gossip/botb-cioverfleld-jessica- 
'aplan-vs-odette-yustman- 361 


Mtp [| www joblo.com / hollywood -celebri 
ariana-granóe-vi-elizabeth-gillies-vi-vi 


CITED 


Name Content 
gifs-a-salute-to-butts- The most horrible time of the year has finally arrived... Halloween! 
t Time to start smashing carving 


| diérit know what to expect with last week's Battle but it appears. 
you ali Fave strong opinions 






gossip/botb-vitorious-habes 
íctora- justice 


Last vk vas a very ore batie, indeed í never wouid huve 
thought that you would be se 





ande vs 
Elizabeth Gillies vs 
Victoria justice 

Hobywood Gossip. 














| MovieHotties 
890 E superman dawn of justice Mtp: hollywood-celebrites/gossip/tgifs-the-most-gif-worthy- TGFs: The Top — Th thing of the past now, but if there's one 
moments ot 2014-208 Ten Most Sing weve Ar 
;if- Worth 
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我 们 将 Link model 也 添加 到 管理 后 台 (admin.site.register(Link))， 当 然 这 不 是 必须 的 。 


除了 启用 管理 后 台 ， 更 有 趣 的 是 ， 我 们 可 以 设置 API 终点 ， 实 现 用 电影 名 称 检索 电影 情感 
分 析 结 果 的 功能 。 在 pages 文件 夹 api.py 文件 中 ， 编 写 如 下 代码 : 







































































from rest framework import views,generics 

from rest framework.permissions import AllowAny 

from rest framework.response import Response 

from rest framework.pagination import PageNumberPagination 
from pages.serializers import SearchTermSerializer 

from pages.models import SearchTerm,Page 


class LargeResultsSetPagination (PageNumberPagination): 
page size - 1000 
page size query param = 'page size' 
max page size - 10000 


class SearchTermsList(generics.ListAPIView): 


serializer class - SearchTermSerializer 
permission classes - (AllowAny,) 
pagination class - LargeResultsSetPagination 


def get queryset (self): 
return SearchTerm.objects.all() 


class PageCounts (views.APIView): 


permission classes - (AllowAny,) 
def get(self,*args, **kwargs): 
searchid-self.kwargs['pk'] 
reviewpages - Page.objects.filter(searchterm-searchid). 
filter(review-True) 
npos = len([p for p in reviewpages if p.sentiment--1]) 
nneg = len(reviewpages)-npos 
return Response(í('npos':npos, 'nneg':nneg]) 














H 








PageCounts 类 以 要 搜索 的 ID (EWAH 作为 参数 ， 返 回电 影 的 情感 分 析 结 果 : 积极 
影评 和 消极 影评 的 数量 。 要 获取 电影 名 称 的 SearchTerm ID， 你 可 以 从 管理 后 台 查 找 或 使 用 
API 终点 SearchTermsList; 该 API 返回 电影 名 称 列表 及 相应 的 ID 。 我 们 在 serializers.py X 
件 设置 序列 化 工具 serializer: 
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from pages.models import SearchTerm 
from rest framework import serializers 


class SearchTermSerializer(serializers.HyperlinkedModelSerializer): 
class Meta: 
model = SearchTerm 
fields = ('id', 'term') 




















要 调用 这 些 API 端点 , 我 们 可 以 再 次 使 用 swagger 接口 〈 见 第 6 章 ) 或 在 终端 使 用 curl 


o 


例如 : 




















curl -X GET localhost:8000/search-list/ 
("count":7,"next":null," previous":null," results": [("id":24,"term":"the ma 
rtian")],("id":27,"term":"steve jobs"),("id":29,"term":"suffragette"),("i 
d":39,"term":"southpaw"),("id":40,"term":"vacation"),("id":67,"term":"the 
revenant"),("id":68,"term":"batman vs superman dawn of justice"]]) 


和 


curl -X GET localhost:8000/pages-sentiment/68/ 
("nneg":3,"npos":15) 


8.8 小 结 


和 


今 商 业 环 境 所 使 用 的 、 最 为 重要 的 机 器 学 习 算 法 知识 。 











本 章 介 绍 了 影评 情感 分 析 Web 应 用 的 实现 方法 ， 帮 助 你 熟悉 了 我 们 在 第 3 章 、 第 4 章 


NI 
1 












































H 


B6 章 学 到 的 一 些 算法 和 库 。 



































我 们 的 旅程 即将 结束 : 通过 阅读 本 书 ， 运 行 我 们 提供 的 代码 ， 你 应 该 已 经 掌握 大 量 当 









































你 应 该 已 经 能 够 用 从 本 书 学 到 的 知识 ， 用 Python 语言 和 一 些 机 器 学 习 算法 ， 开 发 你 自 














己 的 Web 应 用 。 当 今世 界 有 很 多 数据 相关 的 极 具 挑战 性 的 问题 ， 正 等 待 掌握 了 本 书 所 讲 知 


YA 


























只 并 能 加 以 运用 的 人 去 解决 。 学 完 本 书 的 你 ， 当 之 无 愧 属于 其 中 的 一 员 。 
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异步 社区 的 来 历 
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结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 








人 民 邮 电 出 版 社 


B www.epubit.com.cn 


qz HSK 








新 年 新 气象 

















提供 最 新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 
的 平台 。 





社区 里 都 有 什么 ? 


购买 图 书 

















本 -一 预 
" 


A FabTHIX [ws aJ 
"Em 


USE. BESE 。 机 要 学 习 项 目 开发 实战 。 贝 叶 斯 导 维 ; 统计 建 民 
与 贝 叶 斯 推断 的 Pyth 






"A 


e 
ex * 
o V» 


e 


d» em 


[$ 移动 开发 e 游戏 开发 


F 


5i 






免费 电子 书 


Free eBook 








Python 学 习 法 





我 们 出 版 的 图 书 涵盖 主流 IT 技术 ， 在 编程 语言 、Web 技术 、 数 据 科 学 等 领域 有 众多 经 典 畅 销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 





布 新 书 书 讯 。 











下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 











与 作 译 者 互动 








很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 
作 译 者 和 编辑 畅 聊 好 书 背后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采访 题目 。 


灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书 库 发 货 ， 电 子 书 提供 


多 种 阅读 格式 。 


对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 
用 户 账 户 中 的 积分 可 以 用 于 购书 优惠 。100 积分 =1 元 ， 购 买 图 书 时 ， 在 。 


入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 


E ss 
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特别 优惠 


购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 
使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG 


， 然 后 点 击 “ 使 


用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 








纸 电 图 书 组 合 购买 























社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 
方式 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 





社区 里 还 可 以 做 什么 ? 
提交 勘误 


您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘 
误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读 
者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 


作 




















dif 





PE 




















证 L | Are AA 本 书 人 有 
JEn a 
- 4 à sir: 75.61 
miim 
meo as0 
EEES 
i E s 





区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 身手 ， 在 社区 里 分 享 您 的 技术 心得 


和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐趣 ， 轻 松 实现 出 版 的 梦想 。 


如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社 
会 议 活动 早 知道 


























您 可 以 掌握 IT 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 





加 入 异步 





扫描 任意 二 维 码 都 能 找到 我 们 : 








异步 社区 | ” 微 信 服务 号 。 


社区 网 址 : www.epubit.com.cn 





官方 微 信 : 异步 社区 
EDHE: e 人 邮 和 异步 社 区 ， 





投稿 & 咨询 : contact@epubit.com.cn 








WATAS 。 


区 提供 的 作者 专 享 特色 服务 。 





会 门票 。 











Bé ”QQ 群 : 436746675 


@ 人 民 邮 电 出 版 社 - 信息 技术 分 社 
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机 器 学 习 VVeb 应 用 


Python 是 一 门 通 用 型 编程 语言 ， 也 是 一 门 相对 容易 学 习 的 语言 。 因 此 ， 数 据 科 学 家 在 为 中 小 规模 的 数 
据 集 制作 原型 、 实 现 可 视 化 和 分 析 数 据 时 ， 经 常 选择 使 用 Python。 

本 书 填补 了 机 器 学 习 和 Web 开发 之 间 的 鸿沟 。 本 书 重点 讲解 在 Web 应 用 中 实现 预测 分 析 功 能 的 难点 ， 
重点 介绍 Python 语言 及 相关 框架 、 工 具 和 库 ， 展 示 了 如 何 搭建 机 器 学 习 系统 。 你 将 从 本 书 学 到 机 器 学 习 的 
该 心 概念 ， 学 习 如 何 将 数据 部 署 到 用 Django 框架 开发 的 Web 应 用 ; 还 将 学 到 如 何 挖 气 Web、 文 档 和 服务 
器 端 数据 以 及 如 何 搭建 推荐 引擎 

随后 ， 你 将 进一步 探索 功能 强大 的 Django 框 
是 用 机 器 学 习 算 法 驱动 的 ! 































































































， 学 习 搭建 一 个 简单 、 有 具备 现代 感 的 影评 情感 分 析 应 用 ， 


H 
uil 





EX zii: 
本 书 是 写 给 正 努 力 成 为 数据 科学 家 的 读者 以 及 新 晋 的 数据 科学 家 的 。 读 者 应 该 具备 一 些 机 器 学 习 经 验 。 

如 果 你 对 开发 智能 ( 具备 预测 功能 的 ) Web 应 用 感 兴趣 ， 或 正在 从 事 相 关 开 发 工作 ， 本 书 非常 适合 作 

一 定 的 Django 知识 ， 学 习 本 书 将 会 更 加 轻松 。 我 们 还 希望 读者 具备 一 定 的 Python 编程 背景 和 扎实 的 统计 


学 知识 。 
















































































通过 阅读 本 书 ， 你 将 能 够 
熟悉 机 器 学 习 基 本 概念 和 机 器 学 习 社 区 使 用 的 一 些 术语 。 

用 多 种 工具 和 技术 从 网 站 挖掘 数据 。 

掌握 Django 框架 的 核心 概念 

了 解 最 常用 的 聚 类 和 分 类 技术 ， 并 用 Python 实现 它们 。 
掌握 用 Django 搭建 Web 应 用 所 需 的 所 有 必 备 知识 。 

用 Python 语言 的 Django 库 成 功 搭建 和 部 署 电影 推荐 系统 。 
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